К смешанно-модальному поиску для универсального поисково-усиленного генеративного подхода

Аннотация

Генерация с усилением поиска (Retrieval-Augmented Generation, RAG) стала мощной парадигмой для улучшения больших языковых моделей (LLMs) за счет извлечения релевантных документов из внешнего корпуса. Однако существующие системы RAG в основном ориентированы на одноканальные текстовые документы и часто оказываются недостаточно эффективными в реальных сценариях, где как запросы, так и документы могут содержать смешанные модальности (например, текст и изображения). В данной работе мы рассматриваем задачу Универсальной Генерации с Усилением Поиска (Universal Retrieval-Augmented Generation, URAG), которая предполагает извлечение и анализ информации смешанных модальностей для улучшения генерации в задачах, связанных с обработкой визуально-текстовых данных. Для решения этой задачи мы предлагаем Nyx — унифицированный извлекатель смешанных модальностей, адаптированный для сценариев URAG. Чтобы преодолеть недостаток реалистичных данных смешанных модальностей, мы разработали четырехэтапный автоматизированный конвейер для генерации и фильтрации, используя веб-документы для создания NyxQA — набора данных, содержащего разнообразные пары вопросов и ответов смешанных модальностей, которые лучше отражают реальные информационные потребности. На основе этого высококачественного набора данных мы применяем двухэтапную структуру обучения для Nyx: сначала выполняем предварительное обучение на NyxQA вместе с различными открытыми наборами данных для извлечения, а затем проводим контролируемую тонкую настройку с использованием обратной связи от моделей обработки визуально-текстовых данных (VLMs) для согласования результатов извлечения с предпочтениями генерации. Экспериментальные результаты показывают, что Nyx не только демонстрирует конкурентоспособные результаты на стандартных тестах RAG для текстовых данных, но и превосходит в более общем и реалистичном сценарии URAG, значительно улучшая качество генерации в задачах обработки визуально-текстовых данных.

English

Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for enhancing large language models (LLMs) by retrieving relevant documents from an external corpus. However, existing RAG systems primarily focus on unimodal text documents, and often fall short in real-world scenarios where both queries and documents may contain mixed modalities (such as text and images). In this paper, we address the challenge of Universal Retrieval-Augmented Generation (URAG), which involves retrieving and reasoning over mixed-modal information to improve vision-language generation. To this end, we propose Nyx, a unified mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate the scarcity of realistic mixed-modal data, we introduce a four-stage automated pipeline for generation and filtering, leveraging web documents to construct NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that better reflect real-world information needs. Building on this high-quality dataset, we adopt a two-stage training framework for Nyx: we first perform pre-training on NyxQA along with a variety of open-source retrieval datasets, followed by supervised fine-tuning using feedback from downstream vision-language models (VLMs) to align retrieval outputs with generative preferences. Experimental results demonstrate that Nyx not only performs competitively on standard text-only RAG benchmarks, but also excels in the more general and realistic URAG setting, significantly improving generation quality in vision-language tasks.

К смешанно-модальному поиску для универсального поисково-усиленного генеративного подхода

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

Аннотация

Support