ColPali: Эффективный поиск документов с помощью моделей визуально-языковых данных
ColPali: Efficient Document Retrieval with Vision Language Models
June 27, 2024
Авторы: Manuel Faysse, Hugues Sibille, Tony Wu, Gautier Viaud, Céline Hudelot, Pierre Colombo
cs.AI
Аннотация
Документы представляют собой визуально насыщенные структуры, которые передают информацию с помощью текста, а также таблиц, рисунков, макетов страниц или шрифтов. В то время как современные системы поиска документов проявляют высокую производительность в сопоставлении запросов с текстом, они испытывают затруднения в эффективном использовании визуальных подсказок, что затрудняет их производительность в практических приложениях поиска документов, таких как Поиск с Расширением Генерации. Для оценки текущих систем по визуальному поиску документов мы представляем бенчмарк визуального поиска документов ViDoRe, состоящий из различных задач по извлечению на уровне страниц, охватывающих несколько областей, языков и настроек. Врожденные недостатки современных систем мотивируют введение новой архитектуры модели поиска, ColPali, которая использует возможности понимания документов недавних моделей Визуального Языка для создания контекстуализированных векторных представлений высокого качества исключительно из изображений страниц документов. В сочетании с механизмом сопоставления позднего взаимодействия, ColPali в значительной степени превосходит современные конвейеры поиска документов, при этом значительно ускоряется и обучается end-to-end.
English
Documents are visually rich structures that convey information through text,
as well as tables, figures, page layouts, or fonts. While modern document
retrieval systems exhibit strong performance on query-to-text matching, they
struggle to exploit visual cues efficiently, hindering their performance on
practical document retrieval applications such as Retrieval Augmented
Generation. To benchmark current systems on visually rich document retrieval,
we introduce the Visual Document Retrieval Benchmark ViDoRe, composed of
various page-level retrieving tasks spanning multiple domains, languages, and
settings. The inherent shortcomings of modern systems motivate the introduction
of a new retrieval model architecture, ColPali, which leverages the document
understanding capabilities of recent Vision Language Models to produce
high-quality contextualized embeddings solely from images of document pages.
Combined with a late interaction matching mechanism, ColPali largely
outperforms modern document retrieval pipelines while being drastically faster
and end-to-end trainable.Summary
AI-Generated Summary