ChatPaper.aiChatPaper

Auf dem Weg zu gemischt-modaler Retrieval für universelles Retrieval-augmentiertes Generieren

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

October 20, 2025
papers.authors: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou
cs.AI

papers.abstract

Retrieval-Augmented Generation (RAG) hat sich als leistungsstarkes Paradigma zur Verbesserung großer Sprachmodelle (LLMs) durch das Abrufen relevanter Dokumente aus einem externen Korpus etabliert. Allerdings konzentrieren sich bestehende RAG-Systeme hauptsächlich auf unimodale Textdokumente und stoßen in realen Szenarien oft an ihre Grenzen, in denen sowohl Anfragen als auch Dokumente gemischte Modalitäten (wie Text und Bilder) enthalten können. In diesem Artikel gehen wir die Herausforderung des Universal Retrieval-Augmented Generation (URAG) an, bei dem es darum geht, gemischt-modale Informationen abzurufen und darüber zu schlussfolgern, um die Vision-Sprach-Generierung zu verbessern. Zu diesem Zweck schlagen wir Nyx vor, einen einheitlichen gemischt-modalen Retriever, der speziell für URAG-Szenarien entwickelt wurde. Um den Mangel an realistischen gemischt-modalen Daten zu beheben, führen wir eine vierstufige automatisierte Pipeline zur Generierung und Filterung ein, die Webdokumente nutzt, um NyxQA zu konstruieren, einen Datensatz, der vielfältige gemischt-modale Frage-Antwort-Paare enthält, die die Informationsbedürfnisse der realen Welt besser widerspiegeln. Aufbauend auf diesem hochwertigen Datensatz verwenden wir ein zweistufiges Trainingsframework für Nyx: Zuerst führen wir ein Pre-Training auf NyxQA sowie auf einer Vielzahl von Open-Source-Retrieval-Datensätzen durch, gefolgt von einem überwachten Fein-Tuning unter Verwendung von Feedback aus nachgelagerten Vision-Sprach-Modellen (VLMs), um die Retrieval-Ergebnisse mit den generativen Präferenzen abzustimmen. Experimentelle Ergebnisse zeigen, dass Nyx nicht nur auf Standard-RAG-Benchmarks für reinen Text wettbewerbsfähig abschneidet, sondern auch in der allgemeineren und realistischeren URAG-Umgebung hervorragende Leistungen erbringt und die Generierungsqualität in Vision-Sprach-Aufgaben signifikant verbessert.
English
Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for enhancing large language models (LLMs) by retrieving relevant documents from an external corpus. However, existing RAG systems primarily focus on unimodal text documents, and often fall short in real-world scenarios where both queries and documents may contain mixed modalities (such as text and images). In this paper, we address the challenge of Universal Retrieval-Augmented Generation (URAG), which involves retrieving and reasoning over mixed-modal information to improve vision-language generation. To this end, we propose Nyx, a unified mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate the scarcity of realistic mixed-modal data, we introduce a four-stage automated pipeline for generation and filtering, leveraging web documents to construct NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that better reflect real-world information needs. Building on this high-quality dataset, we adopt a two-stage training framework for Nyx: we first perform pre-training on NyxQA along with a variety of open-source retrieval datasets, followed by supervised fine-tuning using feedback from downstream vision-language models (VLMs) to align retrieval outputs with generative preferences. Experimental results demonstrate that Nyx not only performs competitively on standard text-only RAG benchmarks, but also excels in the more general and realistic URAG setting, significantly improving generation quality in vision-language tasks.
PDF312October 21, 2025