ColPali: Effiziente Dokumentensuche mit Vision-Sprach-Modellen
ColPali: Efficient Document Retrieval with Vision Language Models
June 27, 2024
Autoren: Manuel Faysse, Hugues Sibille, Tony Wu, Gautier Viaud, Céline Hudelot, Pierre Colombo
cs.AI
Zusammenfassung
Dokumente sind visuell reiche Strukturen, die Informationen durch Text, sowie Tabellen, Abbildungen, Seitenlayouts oder Schriftarten vermitteln. Während moderne Dokumentenabrufsysteme eine starke Leistung bei der Abfrage-zu-Text-Übereinstimmung zeigen, haben sie Schwierigkeiten, visuelle Hinweise effizient zu nutzen, was ihre Leistung bei praktischen Dokumentenabrufanwendungen wie der Retrieval Augmented Generation beeinträchtigt. Um aktuelle Systeme im Bereich des visuell reichen Dokumentenabrufs zu bewerten, führen wir das Visual Document Retrieval Benchmark ViDoRe ein, das aus verschiedenen auf Seitenebene durchgeführten Abrufaufgaben besteht, die mehrere Domänen, Sprachen und Einstellungen umfassen. Die inhärenten Mängel moderner Systeme motivieren die Einführung eines neuen Abrufmodell-Architektur, ColPali, die die Dokumentenverständnisfähigkeiten aktueller Vision Language Models nutzt, um hochwertige kontextualisierte Einbettungen ausschließlich aus Bildern von Dokumentenseiten zu erzeugen. In Kombination mit einem Matching-Mechanismus für späte Interaktion übertrifft ColPali weitgehend moderne Dokumentenabruf-Pipelines, während es drastisch schneller und end-to-end trainierbar ist.
English
Documents are visually rich structures that convey information through text,
as well as tables, figures, page layouts, or fonts. While modern document
retrieval systems exhibit strong performance on query-to-text matching, they
struggle to exploit visual cues efficiently, hindering their performance on
practical document retrieval applications such as Retrieval Augmented
Generation. To benchmark current systems on visually rich document retrieval,
we introduce the Visual Document Retrieval Benchmark ViDoRe, composed of
various page-level retrieving tasks spanning multiple domains, languages, and
settings. The inherent shortcomings of modern systems motivate the introduction
of a new retrieval model architecture, ColPali, which leverages the document
understanding capabilities of recent Vision Language Models to produce
high-quality contextualized embeddings solely from images of document pages.
Combined with a late interaction matching mechanism, ColPali largely
outperforms modern document retrieval pipelines while being drastically faster
and end-to-end trainable.Summary
AI-Generated Summary