Embed-RL: Aprendizagem por Reforço para Embeddings Multimodais Orientados pelo Raciocínio
Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings
February 14, 2026
Autores: Haonan Jiang, Yuji Wang, Yongjie Zhu, Xin Lu, Wenyu Qin, Meng Wang, Pengfei Wan, Yansong Tang
cs.AI
Resumo
A utilização de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tornou-se fundamental para o avanço de Embeddings Multimodais Universais (UME) na abordagem de diversas tarefas de modalidade cruzada. Estudos recentes demonstram que a incorporação de raciocínio generativo de Cadeia de Pensamento (CoT) pode melhorar substancialmente as representações específicas da tarefa em comparação com métodos discriminativos. No entanto, as CoTs de raciocínio geradas pelos métodos de embedding generativos existentes limitam-se à análise textual das consultas e são irrelevantes para a recuperação dos alvos. Para superar essas limitações, propomos uma estrutura UME orientada por raciocínio que integra Aprendizagem por Reforço Guiada pelo Embedder (EG-RL) para otimizar o Reasoner a produzir uma CoT de Rastreabilidade Evidencial (T-CoT). Nossas principais contribuições são três: (1) Projetamos uma estrutura EG-RL na qual o Embedder fornece supervisão explícita ao Reasoner, garantindo que os traços CoT gerados estejam alinhados com as tarefas de embedding. (2) Introduzimos a T-CoT, que extrai pistas multimodais críticas para focar em elementos relevantes para a recuperação e fornece entradas multimodais para o Embedder. (3) Com recursos computacionais limitados, nossa estrutura supera o modelo de embedding pioneiro nos benchmarks MMEB-V2 e UVRB. A integração de evidências multimodais no raciocínio estruturado, emparelhada com um alinhamento orientado à recuperação, fortalece efetivamente a consistência semântica de modalidade cruzada e impulsiona a capacidade de correspondência em nível granular do modelo, bem como a generalização em cenários complexos. Nosso trabalho demonstra que a otimização direcionada do raciocínio pode melhorar significativamente a qualidade do embedding multimodal, fornecendo uma solução prática e eficiente para o desenvolvimento de UME orientado por raciocínio.
English
Leveraging Multimodal Large Language Models (MLLMs) has become pivotal for advancing Universal Multimodal Embeddings (UME) in addressing diverse cross-modal tasks. Recent studies demonstrate that incorporating generative Chain-of-Thought (CoT) reasoning can substantially enhance task-specific representations compared to discriminative methods. However, the generated reasoning CoTs of existing generative embedding methods are limited to the textual analysis of queries and are irrelevant to the retrieval of the targets. To address these limitations, we propose a reasoning-driven UME framework that integrates Embedder-Guided Reinforcement Learning (EG-RL) to optimize the Reasoner to produce evidential Traceability CoT (T-CoT). Our key contributions are threefold: (1) We design an EG-RL framework where the Embedder provides explicit supervision to the Reasoner, ensuring the generated CoT traces are aligned with embedding tasks. (2) We introduce T-CoT, which extracts critical multimodal cues to focus on retrieval-relevant elements and provides multimodal inputs for the Embedder. (3) With limited computational resources, our framework outperforms the pioneering embedding model on both MMEB-V2 and UVRB benchmarks. The integration of multimodal evidence in structured reasoning, paired with retrieval-oriented alignment, effectively strengthens cross-modal semantic consistency and boosts the fine-grained matching capability of the model as well as the generalization across complex scenarios. Our work demonstrates that targeted reasoning optimization can significantly improve multimodal embedding quality, providing a practical and efficient solution for reasoning-driven UME development.