Auf dem Weg zu gemischt-modaler Retrieval für universelles Retrieval-augmentiertes Generieren
Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation
October 20, 2025
papers.authors: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou
cs.AI
papers.abstract
Retrieval-Augmented Generation (RAG) hat sich als leistungsstarkes Paradigma zur Verbesserung großer Sprachmodelle (LLMs) durch das Abrufen relevanter Dokumente aus einem externen Korpus etabliert. Allerdings konzentrieren sich bestehende RAG-Systeme hauptsächlich auf unimodale Textdokumente und stoßen in realen Szenarien oft an ihre Grenzen, in denen sowohl Anfragen als auch Dokumente gemischte Modalitäten (wie Text und Bilder) enthalten können. In diesem Artikel gehen wir die Herausforderung des Universal Retrieval-Augmented Generation (URAG) an, bei dem es darum geht, gemischt-modale Informationen abzurufen und darüber zu schlussfolgern, um die Vision-Sprach-Generierung zu verbessern. Zu diesem Zweck schlagen wir Nyx vor, einen einheitlichen gemischt-modalen Retriever, der speziell für URAG-Szenarien entwickelt wurde. Um den Mangel an realistischen gemischt-modalen Daten zu beheben, führen wir eine vierstufige automatisierte Pipeline zur Generierung und Filterung ein, die Webdokumente nutzt, um NyxQA zu konstruieren, einen Datensatz, der vielfältige gemischt-modale Frage-Antwort-Paare enthält, die die Informationsbedürfnisse der realen Welt besser widerspiegeln. Aufbauend auf diesem hochwertigen Datensatz verwenden wir ein zweistufiges Trainingsframework für Nyx: Zuerst führen wir ein Pre-Training auf NyxQA sowie auf einer Vielzahl von Open-Source-Retrieval-Datensätzen durch, gefolgt von einem überwachten Fein-Tuning unter Verwendung von Feedback aus nachgelagerten Vision-Sprach-Modellen (VLMs), um die Retrieval-Ergebnisse mit den generativen Präferenzen abzustimmen. Experimentelle Ergebnisse zeigen, dass Nyx nicht nur auf Standard-RAG-Benchmarks für reinen Text wettbewerbsfähig abschneidet, sondern auch in der allgemeineren und realistischeren URAG-Umgebung hervorragende Leistungen erbringt und die Generierungsqualität in Vision-Sprach-Aufgaben signifikant verbessert.
English
Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for
enhancing large language models (LLMs) by retrieving relevant documents from an
external corpus. However, existing RAG systems primarily focus on unimodal text
documents, and often fall short in real-world scenarios where both queries and
documents may contain mixed modalities (such as text and images). In this
paper, we address the challenge of Universal Retrieval-Augmented Generation
(URAG), which involves retrieving and reasoning over mixed-modal information to
improve vision-language generation. To this end, we propose Nyx, a unified
mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate
the scarcity of realistic mixed-modal data, we introduce a four-stage automated
pipeline for generation and filtering, leveraging web documents to construct
NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that
better reflect real-world information needs. Building on this high-quality
dataset, we adopt a two-stage training framework for Nyx: we first perform
pre-training on NyxQA along with a variety of open-source retrieval datasets,
followed by supervised fine-tuning using feedback from downstream
vision-language models (VLMs) to align retrieval outputs with generative
preferences. Experimental results demonstrate that Nyx not only performs
competitively on standard text-only RAG benchmarks, but also excels in the more
general and realistic URAG setting, significantly improving generation quality
in vision-language tasks.