langchain
[langchain] CharacterTextSplitter와 RecursiveCharacterTextSplitter의 차이
langchain에서 rag를 사용할 때 긴 텍스트를 효율적으로 다루는 것이 매우 중요하다. 특히 언어 모델을 사용할 때는, 한 번에 처리할 수 있는 토큰의 수가 제한적이므로 텍스트를 적절한 크기로 분할하는 것이 필수이다. 이를 위해 Hugging Face의 CharacterTextSplitter와 RecursiveCharacterTextSplitter 같은 도구들이 사용된다. 여기서는 이 개의 차이점을 한번 알아보자.1. CharacterTextSplitter란?CharacterTextSplitter는 텍스트를 일정한 크기로 분할할 수 있는 간단한 도구이다. 이 도구는 주어진 텍스트를 기준으로 정의된 구분자를 사용하여 텍스트를 나눈다. 주로 특정 문자를 기준으로 분할하기 때문에, 문장이나 문단 단위로 ..
2024. 9. 6. 08:59