ChatPaper.aiChatPaper

범용 검색 증강 생성을 위한 혼합 모드 검색 방향

Towards Mixed-Modal Retrieval for Universal Retrieval-Augmented Generation

October 20, 2025
저자: Chenghao Zhang, Guanting Dong, Xinyu Yang, Zhicheng Dou
cs.AI

초록

검색 증강 생성(Retrieval-Augmented Generation, RAG)은 외부 코퍼스에서 관련 문서를 검색하여 대규모 언어 모델(Large Language Models, LLMs)의 성능을 향상시키는 강력한 패러다임으로 부상했다. 그러나 기존의 RAG 시스템은 주로 단일 모드 텍스트 문서에 초점을 맞추고 있으며, 쿼리와 문서 모두 혼합 모드(예: 텍스트와 이미지)를 포함할 수 있는 실제 시나리오에서는 종종 부족한 성능을 보인다. 본 논문에서는 혼합 모드 정보를 검색하고 추론하여 시각-언어 생성 능력을 향상시키는 보편적 검색 증강 생성(Universal Retrieval-Augmented Generation, URAG)의 과제를 다룬다. 이를 위해, URAG 시나리오에 적합한 통합 혼합 모드 대 혼합 모드 검색기인 Nyx를 제안한다. 현실적인 혼합 모드 데이터의 부족 문제를 완화하기 위해, 웹 문서를 활용하여 다양한 혼합 모드 질문-답변 쌍으로 구성된 NyxQA 데이터셋을 생성하고 필터링하는 4단계 자동화 파이프라인을 도입한다. 이 고품질 데이터셋을 기반으로, Nyx에 대한 2단계 학습 프레임워크를 채택한다: 먼저 NyxQA와 다양한 오픈소스 검색 데이터셋을 사용해 사전 학습을 수행한 후, 하위 시각-언어 모델(Vision-Language Models, VLMs)의 피드백을 활용해 검색 출력을 생성 선호도와 일치하도록 지도 미세 조정을 진행한다. 실험 결과, Nyx는 표준 텍스트 전용 RAG 벤치마크에서 경쟁력 있는 성능을 보일 뿐만 아니라, 더 일반적이고 현실적인 URAG 설정에서도 탁월한 성능을 발휘하며 시각-언어 작업에서의 생성 품질을 크게 향상시킨다.
English
Retrieval-Augmented Generation (RAG) has emerged as a powerful paradigm for enhancing large language models (LLMs) by retrieving relevant documents from an external corpus. However, existing RAG systems primarily focus on unimodal text documents, and often fall short in real-world scenarios where both queries and documents may contain mixed modalities (such as text and images). In this paper, we address the challenge of Universal Retrieval-Augmented Generation (URAG), which involves retrieving and reasoning over mixed-modal information to improve vision-language generation. To this end, we propose Nyx, a unified mixed-modal to mixed-modal retriever tailored for URAG scenarios. To mitigate the scarcity of realistic mixed-modal data, we introduce a four-stage automated pipeline for generation and filtering, leveraging web documents to construct NyxQA, a dataset comprising diverse mixed-modal question-answer pairs that better reflect real-world information needs. Building on this high-quality dataset, we adopt a two-stage training framework for Nyx: we first perform pre-training on NyxQA along with a variety of open-source retrieval datasets, followed by supervised fine-tuning using feedback from downstream vision-language models (VLMs) to align retrieval outputs with generative preferences. Experimental results demonstrate that Nyx not only performs competitively on standard text-only RAG benchmarks, but also excels in the more general and realistic URAG setting, significantly improving generation quality in vision-language tasks.
PDF312October 21, 2025