임베딩-RL: 추론 기반 멀티모달 임베딩을 위한 강화 학습
Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings
February 14, 2026
저자: Haonan Jiang, Yuji Wang, Yongjie Zhu, Xin Lu, Wenyu Qin, Meng Wang, Pengfei Wan, Yansong Tang
cs.AI
초록
다양한 교차 모드 작업 해결을 위한 범용 멀티모달 임베딩(UME) 발전에 멀티모달 대규모 언어 모델(MLLM) 활용이 핵심적 역할을 하고 있다. 최근 연구에 따르면 생성형 사고 연쇄(CoT) 추론을 접목하면 판별식 방법론 대비 작업 특화 표현을 크게 향상시킬 수 있다. 그러나 기존 생성형 임베딩 방법론에서 생성된 추론 CoT는 질의에 대한 텍스트 분석에 국한되어 있으며 대상 검색과 무관한 한계가 있다. 이러한 한계를 해결하기 위해 우리는 추적 가능 CoT(T-CoT) 생성을 위해 Reasoner를 최적화하는 임베더 주도 강화 학습(EG-RL)을 통합한 추론 주도 UME 프레임워크를 제안한다. 주요 기여점은 세 가지이다: (1) 임베더가 Reasoner에 명시적 감독을 제공하여 생성된 CoT 추적이 임베딩 작업과 정렬되도록 보장하는 EG-RL 프레임워크를 설계하였다. (2) 검색 관련 요소에 집중하기 위한 핵심 멀티모달 단서를 추출하고 임베더에 멀티모달 입력을 제공하는 T-CoT를 도입하였다. (3) 제한된 계산 자원으로도 우리 프레임워크는 MMEB-V2와 UVRB 벤치마크 모두에서 선도적 임베딩 모델을 능가한다. 구조화된 추론에 멀티모달 증거를 통합하고 검색 지향 정렬을 결합함으로써 교차 모드 의미 일관성을 효과적으로 강화하며, 모델의 세분화된 매칭 능력과 복잡한 시나리오 간 일반화 성능을 향상시킨다. 본 연구는 표적 추론 최적화가 멀티모달 임베딩 품질을 크게 개선할 수 있음을 입증하며, 추론 주도 UME 개발을 위한 실용적이고 효율적인 해결책을 제시한다.
English
Leveraging Multimodal Large Language Models (MLLMs) has become pivotal for advancing Universal Multimodal Embeddings (UME) in addressing diverse cross-modal tasks. Recent studies demonstrate that incorporating generative Chain-of-Thought (CoT) reasoning can substantially enhance task-specific representations compared to discriminative methods. However, the generated reasoning CoTs of existing generative embedding methods are limited to the textual analysis of queries and are irrelevant to the retrieval of the targets. To address these limitations, we propose a reasoning-driven UME framework that integrates Embedder-Guided Reinforcement Learning (EG-RL) to optimize the Reasoner to produce evidential Traceability CoT (T-CoT). Our key contributions are threefold: (1) We design an EG-RL framework where the Embedder provides explicit supervision to the Reasoner, ensuring the generated CoT traces are aligned with embedding tasks. (2) We introduce T-CoT, which extracts critical multimodal cues to focus on retrieval-relevant elements and provides multimodal inputs for the Embedder. (3) With limited computational resources, our framework outperforms the pioneering embedding model on both MMEB-V2 and UVRB benchmarks. The integration of multimodal evidence in structured reasoning, paired with retrieval-oriented alignment, effectively strengthens cross-modal semantic consistency and boosts the fine-grained matching capability of the model as well as the generalization across complex scenarios. Our work demonstrates that targeted reasoning optimization can significantly improve multimodal embedding quality, providing a practical and efficient solution for reasoning-driven UME development.