Vers une recherche multimodale pour une génération augmentée universelle par la recherche

papers.abstract

La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) s’est imposée comme un paradigme puissant pour améliorer les grands modèles de langage (LLMs) en récupérant des documents pertinents à partir d’un corpus externe. Cependant, les systèmes RAG existants se concentrent principalement sur des documents textuels unimodaux et peinent souvent à répondre aux scénarios réels où les requêtes et les documents peuvent contenir des modalités mixtes (telles que du texte et des images). Dans cet article, nous abordons le défi de la Génération Augmentée par Récupération Universelle (Universal Retrieval-Augmented Generation, URAG), qui implique la récupération et le raisonnement sur des informations multimodales pour améliorer la génération visio-linguistique. À cette fin, nous proposons Nyx, un récupérateur unifié multimodal à multimodal spécialement conçu pour les scénarios URAG. Pour pallier la rareté des données multimodales réalistes, nous introduisons un pipeline automatisé en quatre étapes pour la génération et le filtrage, exploitant des documents web pour construire NyxQA, un ensemble de données comprenant des paires question-réponse multimodales diversifiées qui reflètent mieux les besoins d’information du monde réel. En nous appuyant sur cet ensemble de données de haute qualité, nous adoptons un cadre d’entraînement en deux étapes pour Nyx : nous effectuons d’abord un pré-entraînement sur NyxQA ainsi que sur divers ensembles de données de récupération open-source, suivi d’un réglage fin supervisé utilisant les retours des modèles visio-linguistiques (VLMs) en aval pour aligner les résultats de récupération avec les préférences génératives. Les résultats expérimentaux démontrent que Nyx non seulement performe de manière compétitive sur les benchmarks RAG standards en texte seul, mais excelle également dans le cadre plus général et réaliste de l’URAG, améliorant significativement la qualité de la génération dans les tâches visio-linguistiques.

English

Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for enhancing large language models (LLMs) by retrieving relevant documents from an external corpus. However, existing RAG systems primarily focus on unimodal text documents, and often fall short in real-world scenarios where both queries and documents may contain mixed modalities (such as text and images). In this paper, we address the challenge of Universal Retrieval-Augmented Generation (URAG), which involves retrieving and reasoning over mixed-modal information to improve vision-language generation. To this end, we propose Nyx, a unified mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate the scarcity of realistic mixed-modal data, we introduce a four-stage automated pipeline for generation and filtering, leveraging web documents to construct NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that better reflect real-world information needs. Building on this high-quality dataset, we adopt a two-stage training framework for Nyx: we first perform pre-training on NyxQA along with a variety of open-source retrieval datasets, followed by supervised fine-tuning using feedback from downstream vision-language models (VLMs) to align retrieval outputs with generative preferences. Experimental results demonstrate that Nyx not only performs competitively on standard text-only RAG benchmarks, but also excels in the more general and realistic URAG setting, significantly improving generation quality in vision-language tasks.

Vers une recherche multimodale pour une génération augmentée universelle par la recherche

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

papers.abstract

Support