ColPali : Récupération efficace de documents avec des modèles de vision et de langage
ColPali: Efficient Document Retrieval with Vision Language Models
June 27, 2024
Auteurs: Manuel Faysse, Hugues Sibille, Tony Wu, Gautier Viaud, Céline Hudelot, Pierre Colombo
cs.AI
Résumé
Les documents sont des structures visuellement riches qui véhiculent des informations à travers du texte, ainsi que des tableaux, des figures, des mises en page ou des polices. Bien que les systèmes modernes de recherche de documents affichent de solides performances en matière de correspondance requête-texte, ils peinent à exploiter efficacement les indices visuels, ce qui limite leurs performances dans des applications pratiques de recherche de documents telles que la Génération Augmentée par Récupération. Pour évaluer les systèmes actuels sur la recherche de documents visuellement riches, nous introduisons le benchmark ViDoRe (Visual Document Retrieval Benchmark), composé de diverses tâches de récupération au niveau de la page couvrant plusieurs domaines, langues et contextes. Les lacunes inhérentes des systèmes modernes motivent l'introduction d'une nouvelle architecture de modèle de recherche, ColPali, qui exploite les capacités de compréhension des documents des modèles de vision et de langage récents pour produire des embeddings contextualisés de haute qualité uniquement à partir d'images de pages de documents. Combiné à un mécanisme de correspondance par interaction tardive, ColPali surpasse largement les pipelines modernes de recherche de documents tout en étant considérablement plus rapide et entièrement entraînable de bout en bout.
English
Documents are visually rich structures that convey information through text,
as well as tables, figures, page layouts, or fonts. While modern document
retrieval systems exhibit strong performance on query-to-text matching, they
struggle to exploit visual cues efficiently, hindering their performance on
practical document retrieval applications such as Retrieval Augmented
Generation. To benchmark current systems on visually rich document retrieval,
we introduce the Visual Document Retrieval Benchmark ViDoRe, composed of
various page-level retrieving tasks spanning multiple domains, languages, and
settings. The inherent shortcomings of modern systems motivate the introduction
of a new retrieval model architecture, ColPali, which leverages the document
understanding capabilities of recent Vision Language Models to produce
high-quality contextualized embeddings solely from images of document pages.
Combined with a late interaction matching mechanism, ColPali largely
outperforms modern document retrieval pipelines while being drastically faster
and end-to-end trainable.Summary
AI-Generated Summary