ChatPaper.aiChatPaper

ColPali: ビジョン言語モデルを用いた効率的な文書検索

ColPali: Efficient Document Retrieval with Vision Language Models

June 27, 2024
著者: Manuel Faysse, Hugues Sibille, Tony Wu, Gautier Viaud, Céline Hudelot, Pierre Colombo
cs.AI

要旨

ドキュメントは、テキストだけでなく、表、図、ページレイアウト、フォントなどを通じて情報を伝える視覚的に豊かな構造物です。現代のドキュメント検索システムは、クエリとテキストのマッチングにおいて高い性能を発揮しますが、視覚的な手がかりを効率的に活用することが難しく、Retrieval Augmented Generationなどの実用的なドキュメント検索アプリケーションでの性能が制限されています。視覚的に豊かなドキュメント検索における現行システムのベンチマークを行うため、複数のドメイン、言語、設定にわたるページレベルの検索タスクから構成されるVisual Document Retrieval Benchmark ViDoReを導入します。現代のシステムの内在的な欠点を踏まえ、最近のVision Language Modelsのドキュメント理解能力を活用して、ドキュメントページの画像のみから高品質な文脈化された埋め込みを生成する新しい検索モデルアーキテクチャ、ColPaliを提案します。後段のインタラクションマッチングメカニズムと組み合わせることで、ColPaliは現代のドキュメント検索パイプラインを大幅に上回る性能を発揮し、かつ大幅に高速でエンドツーエンドの学習が可能です。
English
Documents are visually rich structures that convey information through text, as well as tables, figures, page layouts, or fonts. While modern document retrieval systems exhibit strong performance on query-to-text matching, they struggle to exploit visual cues efficiently, hindering their performance on practical document retrieval applications such as Retrieval Augmented Generation. To benchmark current systems on visually rich document retrieval, we introduce the Visual Document Retrieval Benchmark ViDoRe, composed of various page-level retrieving tasks spanning multiple domains, languages, and settings. The inherent shortcomings of modern systems motivate the introduction of a new retrieval model architecture, ColPali, which leverages the document understanding capabilities of recent Vision Language Models to produce high-quality contextualized embeddings solely from images of document pages. Combined with a late interaction matching mechanism, ColPali largely outperforms modern document retrieval pipelines while being drastically faster and end-to-end trainable.

Summary

AI-Generated Summary

PDF481November 28, 2024