Vers une recherche multimodale pour une génération augmentée universelle par la recherche
Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation
October 20, 2025
papers.authors: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou
cs.AI
papers.abstract
La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) s’est imposée comme un paradigme puissant pour améliorer les grands modèles de langage (LLMs) en récupérant des documents pertinents à partir d’un corpus externe. Cependant, les systèmes RAG existants se concentrent principalement sur des documents textuels unimodaux et peinent souvent à répondre aux scénarios réels où les requêtes et les documents peuvent contenir des modalités mixtes (telles que du texte et des images). Dans cet article, nous abordons le défi de la Génération Augmentée par Récupération Universelle (Universal Retrieval-Augmented Generation, URAG), qui implique la récupération et le raisonnement sur des informations multimodales pour améliorer la génération visio-linguistique. À cette fin, nous proposons Nyx, un récupérateur unifié multimodal à multimodal spécialement conçu pour les scénarios URAG. Pour pallier la rareté des données multimodales réalistes, nous introduisons un pipeline automatisé en quatre étapes pour la génération et le filtrage, exploitant des documents web pour construire NyxQA, un ensemble de données comprenant des paires question-réponse multimodales diversifiées qui reflètent mieux les besoins d’information du monde réel. En nous appuyant sur cet ensemble de données de haute qualité, nous adoptons un cadre d’entraînement en deux étapes pour Nyx : nous effectuons d’abord un pré-entraînement sur NyxQA ainsi que sur divers ensembles de données de récupération open-source, suivi d’un réglage fin supervisé utilisant les retours des modèles visio-linguistiques (VLMs) en aval pour aligner les résultats de récupération avec les préférences génératives. Les résultats expérimentaux démontrent que Nyx non seulement performe de manière compétitive sur les benchmarks RAG standards en texte seul, mais excelle également dans le cadre plus général et réaliste de l’URAG, améliorant significativement la qualité de la génération dans les tâches visio-linguistiques.
English
Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for
enhancing large language models (LLMs) by retrieving relevant documents from an
external corpus. However, existing RAG systems primarily focus on unimodal text
documents, and often fall short in real-world scenarios where both queries and
documents may contain mixed modalities (such as text and images). In this
paper, we address the challenge of Universal Retrieval-Augmented Generation
(URAG), which involves retrieving and reasoning over mixed-modal information to
improve vision-language generation. To this end, we propose Nyx, a unified
mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate
the scarcity of realistic mixed-modal data, we introduce a four-stage automated
pipeline for generation and filtering, leveraging web documents to construct
NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that
better reflect real-world information needs. Building on this high-quality
dataset, we adopt a two-stage training framework for Nyx: we first perform
pre-training on NyxQA along with a variety of open-source retrieval datasets,
followed by supervised fine-tuning using feedback from downstream
vision-language models (VLMs) to align retrieval outputs with generative
preferences. Experimental results demonstrate that Nyx not only performs
competitively on standard text-only RAG benchmarks, but also excels in the more
general and realistic URAG setting, significantly improving generation quality
in vision-language tasks.