ColPali: Effiziente Dokumentensuche mit Vision-Sprach-Modellen

Zusammenfassung

Dokumente sind visuell reiche Strukturen, die Informationen durch Text, sowie Tabellen, Abbildungen, Seitenlayouts oder Schriftarten vermitteln. Während moderne Dokumentenabrufsysteme eine starke Leistung bei der Abfrage-zu-Text-Übereinstimmung zeigen, haben sie Schwierigkeiten, visuelle Hinweise effizient zu nutzen, was ihre Leistung bei praktischen Dokumentenabrufanwendungen wie der Retrieval Augmented Generation beeinträchtigt. Um aktuelle Systeme im Bereich des visuell reichen Dokumentenabrufs zu bewerten, führen wir das Visual Document Retrieval Benchmark ViDoRe ein, das aus verschiedenen auf Seitenebene durchgeführten Abrufaufgaben besteht, die mehrere Domänen, Sprachen und Einstellungen umfassen. Die inhärenten Mängel moderner Systeme motivieren die Einführung eines neuen Abrufmodell-Architektur, ColPali, die die Dokumentenverständnisfähigkeiten aktueller Vision Language Models nutzt, um hochwertige kontextualisierte Einbettungen ausschließlich aus Bildern von Dokumentenseiten zu erzeugen. In Kombination mit einem Matching-Mechanismus für späte Interaktion übertrifft ColPali weitgehend moderne Dokumentenabruf-Pipelines, während es drastisch schneller und end-to-end trainierbar ist.

English

Documents are visually rich structures that convey information through text, as well as tables, figures, page layouts, or fonts. While modern document retrieval systems exhibit strong performance on query-to-text matching, they struggle to exploit visual cues efficiently, hindering their performance on practical document retrieval applications such as Retrieval Augmented Generation. To benchmark current systems on visually rich document retrieval, we introduce the Visual Document Retrieval Benchmark ViDoRe, composed of various page-level retrieving tasks spanning multiple domains, languages, and settings. The inherent shortcomings of modern systems motivate the introduction of a new retrieval model architecture, ColPali, which leverages the document understanding capabilities of recent Vision Language Models to produce high-quality contextualized embeddings solely from images of document pages. Combined with a late interaction matching mechanism, ColPali largely outperforms modern document retrieval pipelines while being drastically faster and end-to-end trainable.