К смешанно-модальному поиску для универсального поисково-усиленного генеративного подхода
Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation
October 20, 2025
Авторы: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou
cs.AI
Аннотация
Генерация с усилением поиска (Retrieval-Augmented Generation, RAG) стала мощной парадигмой для улучшения больших языковых моделей (LLMs) за счет извлечения релевантных документов из внешнего корпуса. Однако существующие системы RAG в основном ориентированы на одноканальные текстовые документы и часто оказываются недостаточно эффективными в реальных сценариях, где как запросы, так и документы могут содержать смешанные модальности (например, текст и изображения). В данной работе мы рассматриваем задачу Универсальной Генерации с Усилением Поиска (Universal Retrieval-Augmented Generation, URAG), которая предполагает извлечение и анализ информации смешанных модальностей для улучшения генерации в задачах, связанных с обработкой визуально-текстовых данных. Для решения этой задачи мы предлагаем Nyx — унифицированный извлекатель смешанных модальностей, адаптированный для сценариев URAG. Чтобы преодолеть недостаток реалистичных данных смешанных модальностей, мы разработали четырехэтапный автоматизированный конвейер для генерации и фильтрации, используя веб-документы для создания NyxQA — набора данных, содержащего разнообразные пары вопросов и ответов смешанных модальностей, которые лучше отражают реальные информационные потребности. На основе этого высококачественного набора данных мы применяем двухэтапную структуру обучения для Nyx: сначала выполняем предварительное обучение на NyxQA вместе с различными открытыми наборами данных для извлечения, а затем проводим контролируемую тонкую настройку с использованием обратной связи от моделей обработки визуально-текстовых данных (VLMs) для согласования результатов извлечения с предпочтениями генерации. Экспериментальные результаты показывают, что Nyx не только демонстрирует конкурентоспособные результаты на стандартных тестах RAG для текстовых данных, но и превосходит в более общем и реалистичном сценарии URAG, значительно улучшая качество генерации в задачах обработки визуально-текстовых данных.
English
Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for
enhancing large language models (LLMs) by retrieving relevant documents from an
external corpus. However, existing RAG systems primarily focus on unimodal text
documents, and often fall short in real-world scenarios where both queries and
documents may contain mixed modalities (such as text and images). In this
paper, we address the challenge of Universal Retrieval-Augmented Generation
(URAG), which involves retrieving and reasoning over mixed-modal information to
improve vision-language generation. To this end, we propose Nyx, a unified
mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate
the scarcity of realistic mixed-modal data, we introduce a four-stage automated
pipeline for generation and filtering, leveraging web documents to construct
NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that
better reflect real-world information needs. Building on this high-quality
dataset, we adopt a two-stage training framework for Nyx: we first perform
pre-training on NyxQA along with a variety of open-source retrieval datasets,
followed by supervised fine-tuning using feedback from downstream
vision-language models (VLMs) to align retrieval outputs with generative
preferences. Experimental results demonstrate that Nyx not only performs
competitively on standard text-only RAG benchmarks, but also excels in the more
general and realistic URAG setting, significantly improving generation quality
in vision-language tasks.