다중모드 검색을 위한 추론 증강 표현
Reasoning-Augmented Representations for Multimodal Retrieval
February 6, 2026
저자: Jianrui Zhang, Anirudh Sundara Rajan, Brandon Han, Soochahn Lee, Sukanta Ganguly, Yong Jae Lee
cs.AI
초록
범용 멀티모달 검색(UMR)은 텍스트와 비전 간의 임의 대 임의 검색을 목표로 하지만, 현대 임베딩 모델들은 쿼리에 잠재적 추론(예: 불충분하게 명시된 참조 해결 또는 구성적 제약 조건 매칭)이 필요할 때 취약성을 보입니다. 우리는 이러한 취약성이 종종 데이터에서 기인한다고 주장합니다: 이미지가 "침묵하는" 증거를 포함하고 쿼리가 핵심 의미를 암묵적으로 남길 때, 단일 임베딩 과정은 추론과 압축을 동시에 수행해야 하며 이는 잘못된 특징 매칭을 유도합니다. 우리는 검색 전 추론을 외부화하여 이러한 역할을 분리하는 데이터 중심 프레임워크를 제안합니다. 강력한 비전-언어 모델을 사용하여 코퍼스 항목의 시각적 증거를 집중적으로 캡션화하고, 쿼리의 모호한 멀티모달 참조를 해결하며, 장황한 지시문을 간결한 검색 제약 조건으로 재구성함으로써 암묵적 의미를 명시적으로 만듭니다. 추론 시점 향상만으로는 부족합니다. 분포 변화를 피하고 추가된 신호를 완전히 활용하려면 검색기를 이러한 의미론적으로 밀도 높은 표현으로 훈련해야 합니다. M-BEIR 벤치마크에서 우리의 추론 증강 훈련 방법은 강력한 베이스라인 대비 지속적인 성능 향상을 보여주며, 어블레이션 연구를 통해 코퍼스 향상은 주로 지식 집약적 쿼리에 도움이 되는 반면 쿼리 향상은 구성적 수정 요청에 중요함을 확인했습니다. 우리는 코드를 https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval 에 공개했습니다.
English
Universal Multimodal Retrieval (UMR) seeks any-to-any search across text and vision, yet modern embedding models remain brittle when queries require latent reasoning (e.g., resolving underspecified references or matching compositional constraints). We argue this brittleness is often data-induced: when images carry "silent" evidence and queries leave key semantics implicit, a single embedding pass must both reason and compress, encouraging spurious feature matching. We propose a data-centric framework that decouples these roles by externalizing reasoning before retrieval. Using a strong Vision--Language Model, we make implicit semantics explicit by densely captioning visual evidence in corpus entries, resolving ambiguous multimodal references in queries, and rewriting verbose instructions into concise retrieval constraints. Inference-time enhancement alone is insufficient; the retriever must be trained on these semantically dense representations to avoid distribution shift and fully exploit the added signal. Across M-BEIR, our reasoning-augmented training method yields consistent gains over strong baselines, with ablations showing that corpus enhancement chiefly benefits knowledge-intensive queries while query enhancement is critical for compositional modification requests. We publicly release our code at https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.