ChatPaper.aiChatPaper

Rumo à Recuperação Multimodal para Geração Aumentada por Recuperação Universal

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

October 20, 2025
Autores: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou
cs.AI

Resumo

A Geração Aumentada por Recuperação (RAG, do inglês *Retrieval-Augmented Generation*) surgiu como um paradigma poderoso para aprimorar modelos de linguagem de grande escala (LLMs, do inglês *Large Language Models*) ao recuperar documentos relevantes de um corpus externo. No entanto, os sistemas RAG existentes focam principalmente em documentos textuais unimodais e frequentemente falham em cenários do mundo real, onde tanto as consultas quanto os documentos podem conter modalidades mistas (como texto e imagens). Neste artigo, abordamos o desafio da Geração Aumentada por Recuperação Universal (URAG, do inglês *Universal Retrieval-Augmented Generation*), que envolve a recuperação e o raciocínio sobre informações multimodais para melhorar a geração visão-linguagem. Para isso, propomos o Nyx, um recuperador multimodal unificado projetado para cenários URAG. Para mitigar a escassez de dados multimodais realistas, introduzimos um pipeline automatizado de quatro estágios para geração e filtragem, aproveitando documentos da web para construir o NyxQA, um conjunto de dados composto por diversos pares de perguntas e respostas multimodais que refletem melhor as necessidades de informação do mundo real. Com base nesse conjunto de dados de alta qualidade, adotamos uma estrutura de treinamento em duas etapas para o Nyx: primeiro, realizamos pré-treinamento no NyxQA juntamente com uma variedade de conjuntos de dados de recuperação de código aberto, seguido por ajuste fino supervisionado usando feedback de modelos visão-linguagem (VLMs, do inglês *Vision-Language Models*) para alinhar as saídas de recuperação com as preferências gerativas. Resultados experimentais demonstram que o Nyx não apenas apresenta desempenho competitivo em benchmarks padrão de RAG apenas textual, mas também se destaca no cenário URAG, mais geral e realista, melhorando significativamente a qualidade da geração em tarefas visão-linguagem.
English
Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for enhancing large language models (LLMs) by retrieving relevant documents from an external corpus. However, existing RAG systems primarily focus on unimodal text documents, and often fall short in real-world scenarios where both queries and documents may contain mixed modalities (such as text and images). In this paper, we address the challenge of Universal Retrieval-Augmented Generation (URAG), which involves retrieving and reasoning over mixed-modal information to improve vision-language generation. To this end, we propose Nyx, a unified mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate the scarcity of realistic mixed-modal data, we introduce a four-stage automated pipeline for generation and filtering, leveraging web documents to construct NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that better reflect real-world information needs. Building on this high-quality dataset, we adopt a two-stage training framework for Nyx: we first perform pre-training on NyxQA along with a variety of open-source retrieval datasets, followed by supervised fine-tuning using feedback from downstream vision-language models (VLMs) to align retrieval outputs with generative preferences. Experimental results demonstrate that Nyx not only performs competitively on standard text-only RAG benchmarks, but also excels in the more general and realistic URAG setting, significantly improving generation quality in vision-language tasks.
PDF312October 21, 2025