ChatPaper.aiChatPaper

Hacia la Recuperación Multimodal para la Generación Universal Aumentada por Recuperación

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

October 20, 2025
Autores: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou
cs.AI

Resumen

La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) ha surgido como un paradigma poderoso para mejorar los modelos de lenguaje de gran escala (LLMs) mediante la recuperación de documentos relevantes de un corpus externo. Sin embargo, los sistemas RAG existentes se centran principalmente en documentos unimodales de texto y, a menudo, no alcanzan su máximo potencial en escenarios del mundo real donde tanto las consultas como los documentos pueden contener modalidades mixtas (como texto e imágenes). En este artículo, abordamos el desafío de la Generación Aumentada por Recuperación Universal (URAG), que implica la recuperación y el razonamiento sobre información multimodal mixta para mejorar la generación de lenguaje visual. Para ello, proponemos Nyx, un recuperador multimodal mixto unificado diseñado específicamente para escenarios URAG. Para mitigar la escasez de datos multimodales mixtos realistas, introducimos una canalización automatizada de cuatro etapas para la generación y el filtrado, aprovechando documentos web para construir NyxQA, un conjunto de datos que comprende diversos pares de preguntas y respuestas multimodales mixtas que reflejan mejor las necesidades de información del mundo real. Basándonos en este conjunto de datos de alta calidad, adoptamos un marco de entrenamiento de dos etapas para Nyx: primero realizamos un preentrenamiento en NyxQA junto con una variedad de conjuntos de datos de recuperación de código abierto, seguido de un ajuste fino supervisado utilizando retroalimentación de modelos de lenguaje visual (VLMs) para alinear las salidas de recuperación con las preferencias generativas. Los resultados experimentales demuestran que Nyx no solo tiene un desempeño competitivo en los puntos de referencia estándar de RAG de solo texto, sino que también sobresale en el entorno más general y realista de URAG, mejorando significativamente la calidad de la generación en tareas de lenguaje visual.
English
Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for enhancing large language models (LLMs) by retrieving relevant documents from an external corpus. However, existing RAG systems primarily focus on unimodal text documents, and often fall short in real-world scenarios where both queries and documents may contain mixed modalities (such as text and images). In this paper, we address the challenge of Universal Retrieval-Augmented Generation (URAG), which involves retrieving and reasoning over mixed-modal information to improve vision-language generation. To this end, we propose Nyx, a unified mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate the scarcity of realistic mixed-modal data, we introduce a four-stage automated pipeline for generation and filtering, leveraging web documents to construct NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that better reflect real-world information needs. Building on this high-quality dataset, we adopt a two-stage training framework for Nyx: we first perform pre-training on NyxQA along with a variety of open-source retrieval datasets, followed by supervised fine-tuning using feedback from downstream vision-language models (VLMs) to align retrieval outputs with generative preferences. Experimental results demonstrate that Nyx not only performs competitively on standard text-only RAG benchmarks, but also excels in the more general and realistic URAG setting, significantly improving generation quality in vision-language tasks.
PDF312October 21, 2025