ColPali: 비전 언어 모델을 활용한 효율적인 문서 검색
ColPali: Efficient Document Retrieval with Vision Language Models
June 27, 2024
저자: Manuel Faysse, Hugues Sibille, Tony Wu, Gautier Viaud, Céline Hudelot, Pierre Colombo
cs.AI
초록
문서는 텍스트뿐만 아니라 표, 그림, 페이지 레이아웃, 폰트 등을 통해 정보를 전달하는 시각적으로 풍부한 구조물입니다. 현대의 문서 검색 시스템은 쿼리-텍스트 매칭에서는 강력한 성능을 보이지만, 시각적 단서를 효율적으로 활용하는 데 어려움을 겪으며, Retrieval Augmented Generation과 같은 실용적인 문서 검색 애플리케이션에서의 성능을 저하시키고 있습니다. 시각적으로 풍부한 문서 검색에서 현재 시스템의 성능을 벤치마크하기 위해, 우리는 다양한 도메인, 언어, 설정에 걸친 페이지 수준의 검색 작업으로 구성된 Visual Document Retrieval Benchmark ViDoRe를 소개합니다. 현대 시스템의 고유한 한계점은 최근의 Vision Language Model의 문서 이해 능력을 활용하여 문서 페이지의 이미지만으로 고품질의 문맥화된 임베딩을 생성하는 새로운 검색 모델 아키텍처인 ColPali의 도입을 촉진했습니다. 후기 상호작용 매칭 메커니즘과 결합된 ColPali는 현대 문서 검색 파이프라인을 크게 능가하면서도 훨씬 빠르고 종단 간 학습이 가능합니다.
English
Documents are visually rich structures that convey information through text,
as well as tables, figures, page layouts, or fonts. While modern document
retrieval systems exhibit strong performance on query-to-text matching, they
struggle to exploit visual cues efficiently, hindering their performance on
practical document retrieval applications such as Retrieval Augmented
Generation. To benchmark current systems on visually rich document retrieval,
we introduce the Visual Document Retrieval Benchmark ViDoRe, composed of
various page-level retrieving tasks spanning multiple domains, languages, and
settings. The inherent shortcomings of modern systems motivate the introduction
of a new retrieval model architecture, ColPali, which leverages the document
understanding capabilities of recent Vision Language Models to produce
high-quality contextualized embeddings solely from images of document pages.
Combined with a late interaction matching mechanism, ColPali largely
outperforms modern document retrieval pipelines while being drastically faster
and end-to-end trainable.Summary
AI-Generated Summary