Naar Gemengde-Modale Retrieval voor Universele Retrieval-Augmented Generatie
Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation
October 20, 2025
Auteurs: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou
cs.AI
Samenvatting
Retrieval-Augmented Generation (RAG) is naar voren gekomen als een krachtig paradigma voor het verbeteren van grote taalmodelen (LLMs) door relevante documenten op te halen uit een externe corpus. Bestaande RAG-systemen richten zich echter voornamelijk op unimodale tekstdocumenten en schieten vaak tekort in realistische scenario's waarin zowel queries als documenten gemengde modaliteiten kunnen bevatten (zoals tekst en afbeeldingen). In dit artikel gaan we in op de uitdaging van Universal Retrieval-Augmented Generation (URAG), waarbij het gaat om het ophalen en redeneren over gemengd-modale informatie om visie-taalgeneratie te verbeteren. Hiertoe stellen we Nyx voor, een geïntegreerde gemengd-modale naar gemengd-modale retriever die is afgestemd op URAG-scenario's. Om het gebrek aan realistische gemengd-modale data te ondervangen, introduceren we een vierstappen geautomatiseerde pijplijn voor generatie en filtering, waarbij we gebruikmaken van webdocumenten om NyxQA te construeren, een dataset die bestaat uit diverse gemengd-modale vraag-antwoordparen die beter aansluiten bij realistische informatiebehoeften. Op basis van deze hoogwaardige dataset hanteren we een tweestappen trainingsframework voor Nyx: we voeren eerst pre-training uit op NyxQA samen met een verscheidenheid aan open-source retrieval-datasets, gevolgd door supervised fine-tuning met feedback van downstream visie-taalmodelen (VLMs) om de retrieval-uitvoer af te stemmen op generatieve voorkeuren. Experimentele resultaten tonen aan dat Nyx niet alleen competitief presteert op standaard tekst-only RAG-benchmarks, maar ook uitblinkt in de meer algemene en realistische URAG-instelling, waarbij de generatiekwaliteit in visie-taal taken aanzienlijk wordt verbeterd.
English
Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for
enhancing large language models (LLMs) by retrieving relevant documents from an
external corpus. However, existing RAG systems primarily focus on unimodal text
documents, and often fall short in real-world scenarios where both queries and
documents may contain mixed modalities (such as text and images). In this
paper, we address the challenge of Universal Retrieval-Augmented Generation
(URAG), which involves retrieving and reasoning over mixed-modal information to
improve vision-language generation. To this end, we propose Nyx, a unified
mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate
the scarcity of realistic mixed-modal data, we introduce a four-stage automated
pipeline for generation and filtering, leveraging web documents to construct
NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that
better reflect real-world information needs. Building on this high-quality
dataset, we adopt a two-stage training framework for Nyx: we first perform
pre-training on NyxQA along with a variety of open-source retrieval datasets,
followed by supervised fine-tuning using feedback from downstream
vision-language models (VLMs) to align retrieval outputs with generative
preferences. Experimental results demonstrate that Nyx not only performs
competitively on standard text-only RAG benchmarks, but also excels in the more
general and realistic URAG setting, significantly improving generation quality
in vision-language tasks.