Verso un Recupero Multimodale per una Generazione Aumentata Universale Basata sul Recupero
Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation
October 20, 2025
Autori: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou
cs.AI
Abstract
La Generazione Aumentata dal Recupero (Retrieval-Augmented Generation, RAG) è emersa come un paradigma potente per migliorare i grandi modelli linguistici (Large Language Models, LLMs) attraverso il recupero di documenti rilevanti da un corpus esterno. Tuttavia, i sistemi RAG esistenti si concentrano principalmente su documenti testuali unimodali e spesso non riescono a soddisfare le esigenze degli scenari reali, in cui sia le query che i documenti possono contenere modalità miste (come testo e immagini). In questo articolo, affrontiamo la sfida della Generazione Aumentata dal Recupero Universale (Universal Retrieval-Augmented Generation, URAG), che implica il recupero e il ragionamento su informazioni multimodali per migliorare la generazione visivo-linguistica. A tal fine, proponiamo Nyx, un recuperatore multimodale unificato progettato per scenari URAG. Per mitigare la scarsità di dati multimodali realistici, introduciamo una pipeline automatizzata in quattro fasi per la generazione e il filtraggio, sfruttando documenti web per costruire NyxQA, un dataset composto da coppie domanda-risposta multimodali che riflettono meglio le esigenze informative del mondo reale. Basandoci su questo dataset di alta qualità, adottiamo un framework di addestramento in due fasi per Nyx: prima eseguiamo un pre-addestramento su NyxQA insieme a vari dataset di recupero open-source, seguito da un fine-tuning supervisionato utilizzando feedback da modelli visivo-linguistici (Vision-Language Models, VLMs) per allineare gli output di recupero con le preferenze generative. I risultati sperimentali dimostrano che Nyx non solo si comporta in modo competitivo sui benchmark RAG standard basati solo su testo, ma eccelle anche nel contesto più generale e realistico dell'URAG, migliorando significativamente la qualità della generazione nei compiti visivo-linguistici.
English
Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for
enhancing large language models (LLMs) by retrieving relevant documents from an
external corpus. However, existing RAG systems primarily focus on unimodal text
documents, and often fall short in real-world scenarios where both queries and
documents may contain mixed modalities (such as text and images). In this
paper, we address the challenge of Universal Retrieval-Augmented Generation
(URAG), which involves retrieving and reasoning over mixed-modal information to
improve vision-language generation. To this end, we propose Nyx, a unified
mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate
the scarcity of realistic mixed-modal data, we introduce a four-stage automated
pipeline for generation and filtering, leveraging web documents to construct
NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that
better reflect real-world information needs. Building on this high-quality
dataset, we adopt a two-stage training framework for Nyx: we first perform
pre-training on NyxQA along with a variety of open-source retrieval datasets,
followed by supervised fine-tuning using feedback from downstream
vision-language models (VLMs) to align retrieval outputs with generative
preferences. Experimental results demonstrate that Nyx not only performs
competitively on standard text-only RAG benchmarks, but also excels in the more
general and realistic URAG setting, significantly improving generation quality
in vision-language tasks.