ChatPaper.aiChatPaper

ユニバーサル検索拡張生成のためのマルチモーダル検索に向けて

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

October 20, 2025
著者: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou
cs.AI

要旨

検索拡張生成(Retrieval-Augmented Generation, RAG)は、外部コーパスから関連文書を検索することで大規模言語モデル(LLMs)を強化する強力なパラダイムとして登場した。しかし、既存のRAGシステムは主に単一モダリティのテキスト文書に焦点を当てており、現実世界のシナリオではクエリと文書の両方がテキストや画像などの混合モダリティを含む場合にしばしば不十分である。本論文では、混合モダリティ情報を検索し推論することで視覚言語生成を改善するユニバーサル検索拡張生成(Universal Retrieval-Augmented Generation, URAG)の課題に取り組む。この目的のために、URAGシナリオに特化した統一的な混合モダリティ間リトリーバーであるNyxを提案する。現実的な混合モダリティデータの不足を緩和するため、ウェブ文書を活用して多様な混合モダリティの質問応答ペアを含むNyxQAデータセットを構築するための4段階の自動化パイプラインを導入する。この高品質なデータセットを基盤として、Nyxのための2段階のトレーニングフレームワークを採用する:まずNyxQAとさまざまなオープンソースの検索データセットで事前学習を行い、その後下流の視覚言語モデル(VLMs)からのフィードバックを用いて検索出力を生成の好みに合わせるための教師ありファインチューニングを行う。実験結果は、Nyxが標準的なテキストのみのRAGベンチマークで競争力のある性能を発揮するだけでなく、より一般的で現実的なURAG設定においても優れ、視覚言語タスクにおける生成品質を大幅に向上させることを示している。
English
Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for enhancing large language models (LLMs) by retrieving relevant documents from an external corpus. However, existing RAG systems primarily focus on unimodal text documents, and often fall short in real-world scenarios where both queries and documents may contain mixed modalities (such as text and images). In this paper, we address the challenge of Universal Retrieval-Augmented Generation (URAG), which involves retrieving and reasoning over mixed-modal information to improve vision-language generation. To this end, we propose Nyx, a unified mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate the scarcity of realistic mixed-modal data, we introduce a four-stage automated pipeline for generation and filtering, leveraging web documents to construct NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that better reflect real-world information needs. Building on this high-quality dataset, we adopt a two-stage training framework for Nyx: we first perform pre-training on NyxQA along with a variety of open-source retrieval datasets, followed by supervised fine-tuning using feedback from downstream vision-language models (VLMs) to align retrieval outputs with generative preferences. Experimental results demonstrate that Nyx not only performs competitively on standard text-only RAG benchmarks, but also excels in the more general and realistic URAG setting, significantly improving generation quality in vision-language tasks.
PDF312October 21, 2025