Embed-RL: Aprendizaje por Refuerzo para Incrustaciones Multimodales Guiadas por el Razonamiento
Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings
February 14, 2026
Autores: Haonan Jiang, Yuji Wang, Yongjie Zhu, Xin Lu, Wenyu Qin, Meng Wang, Pengfei Wan, Yansong Tang
cs.AI
Resumen
El aprovechamiento de Modelos de Lenguaje Grandes Multimodales (MLLM) se ha vuelto fundamental para avanzar en los Embeddings Multimodales Universales (UME) para abordar diversas tareas multimodales. Estudios recientes demuestran que incorporar razonamiento generativo de Cadena de Pensamiento (CoT) puede mejorar sustancialmente las representaciones específicas de la tarea en comparación con los métodos discriminativos. Sin embargo, las CoT de razonamiento generadas por los métodos de embedding generativos existentes se limitan al análisis textual de las consultas y no son relevantes para la recuperación de los objetivos. Para abordar estas limitaciones, proponemos un marco UME impulsado por el razonamiento que integra Aprendizaje por Refuerzo Guiado por el Embedder (EG-RL) para optimizar el Razonador y producir una Cadena de Pensamiento de Trazabilidad Evidencial (T-CoT). Nuestras contribuciones clave son tres: (1) Diseñamos un marco EG-RL donde el Embedder proporciona supervisión explícita al Razonador, garantizando que los rastros CoT generados estén alineados con las tareas de embedding. (2) Introducimos T-CoT, que extrae pistas multimodales críticas para centrarse en elementos relevantes para la recuperación y proporciona entradas multimodales para el Embedder. (3) Con recursos computacionales limitados, nuestro marco supera al modelo de embedding pionero en los benchmarks MMEB-V2 y UVRB. La integración de evidencia multimodal en el razonamiento estructurado, junto con una alineación orientada a la recuperación, fortalece efectivamente la consistencia semántica multimodal y potencia la capacidad de emparejamiento fino del modelo, así como la generalización a través de escenarios complejos. Nuestro trabajo demuestra que la optimización dirigida del razonamiento puede mejorar significativamente la calidad del embedding multimodal, proporcionando una solución práctica y eficiente para el desarrollo de UME impulsado por el razonamiento.
English
Leveraging Multimodal Large Language Models (MLLMs) has become pivotal for advancing Universal Multimodal Embeddings (UME) in addressing diverse cross-modal tasks. Recent studies demonstrate that incorporating generative Chain-of-Thought (CoT) reasoning can substantially enhance task-specific representations compared to discriminative methods. However, the generated reasoning CoTs of existing generative embedding methods are limited to the textual analysis of queries and are irrelevant to the retrieval of the targets. To address these limitations, we propose a reasoning-driven UME framework that integrates Embedder-Guided Reinforcement Learning (EG-RL) to optimize the Reasoner to produce evidential Traceability CoT (T-CoT). Our key contributions are threefold: (1) We design an EG-RL framework where the Embedder provides explicit supervision to the Reasoner, ensuring the generated CoT traces are aligned with embedding tasks. (2) We introduce T-CoT, which extracts critical multimodal cues to focus on retrieval-relevant elements and provides multimodal inputs for the Embedder. (3) With limited computational resources, our framework outperforms the pioneering embedding model on both MMEB-V2 and UVRB benchmarks. The integration of multimodal evidence in structured reasoning, paired with retrieval-oriented alignment, effectively strengthens cross-modal semantic consistency and boosts the fine-grained matching capability of the model as well as the generalization across complex scenarios. Our work demonstrates that targeted reasoning optimization can significantly improve multimodal embedding quality, providing a practical and efficient solution for reasoning-driven UME development.