ColPali: Эффективный поиск документов с помощью моделей визуально-языковых данных

Аннотация

Документы представляют собой визуально насыщенные структуры, которые передают информацию с помощью текста, а также таблиц, рисунков, макетов страниц или шрифтов. В то время как современные системы поиска документов проявляют высокую производительность в сопоставлении запросов с текстом, они испытывают затруднения в эффективном использовании визуальных подсказок, что затрудняет их производительность в практических приложениях поиска документов, таких как Поиск с Расширением Генерации. Для оценки текущих систем по визуальному поиску документов мы представляем бенчмарк визуального поиска документов ViDoRe, состоящий из различных задач по извлечению на уровне страниц, охватывающих несколько областей, языков и настроек. Врожденные недостатки современных систем мотивируют введение новой архитектуры модели поиска, ColPali, которая использует возможности понимания документов недавних моделей Визуального Языка для создания контекстуализированных векторных представлений высокого качества исключительно из изображений страниц документов. В сочетании с механизмом сопоставления позднего взаимодействия, ColPali в значительной степени превосходит современные конвейеры поиска документов, при этом значительно ускоряется и обучается end-to-end.

English

Documents are visually rich structures that convey information through text, as well as tables, figures, page layouts, or fonts. While modern document retrieval systems exhibit strong performance on query-to-text matching, they struggle to exploit visual cues efficiently, hindering their performance on practical document retrieval applications such as Retrieval Augmented Generation. To benchmark current systems on visually rich document retrieval, we introduce the Visual Document Retrieval Benchmark ViDoRe, composed of various page-level retrieving tasks spanning multiple domains, languages, and settings. The inherent shortcomings of modern systems motivate the introduction of a new retrieval model architecture, ColPali, which leverages the document understanding capabilities of recent Vision Language Models to produce high-quality contextualized embeddings solely from images of document pages. Combined with a late interaction matching mechanism, ColPali largely outperforms modern document retrieval pipelines while being drastically faster and end-to-end trainable.

ColPali: Эффективный поиск документов с помощью моделей визуально-языковых данных

ColPali: Efficient Document Retrieval with Vision Language Models

Аннотация

Support