Embed-RL : Apprentissage par Renforcement pour des Représentations Embedding Multimodales Guidées par le Raisonnement
Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings
February 14, 2026
papers.authors: Haonan Jiang, Yuji Wang, Yongjie Zhu, Xin Lu, Wenyu Qin, Meng Wang, Pengfei Wan, Yansong Tang
cs.AI
papers.abstract
L'exploitation des modèles de langage de grande taille multimodaux (MLLM) est devenue cruciale pour faire progresser les représentations multimodales universelles (UME) dans la résolution de diverses tâches intermodales. Des études récentes démontrent que l'intégration d'un raisonnement génératif de type chaîne de pensée (CoT) peut considérablement améliorer les représentations spécifiques aux tâches par rapport aux méthodes discriminatives. Cependant, les chaînes de pensée générées par les méthodes de représentation génératives existantes se limitent à l'analyse textuelle des requêtes et ne sont pas pertinentes pour la récupération des cibles. Pour remédier à ces limitations, nous proposons un cadre UME piloté par le raisonnement qui intègre un apprentissage par renforcement guidé par l'encodeur (EG-RL) afin d'optimiser le Raisonneur pour produire une chaîne de pensée traçable et probante (T-CoT). Nos contributions principales sont triples : (1) Nous concevons un cadre EG-RL dans lequel l'Encodeur fournit une supervision explicite au Raisonneur, garantissant que les traces CoT générées sont alignées sur les tâches de représentation. (2) Nous introduisons la T-CoT, qui extrait des indices multimodaux critiques pour se concentrer sur les éléments pertinents pour la recherche et fournit des entrées multimodales à l'Encodeur. (3) Avec des ressources computationnelles limitées, notre cadre surpasse le modèle de représentation pionnier sur les benchmarks MMEB-V2 et UVRB. L'intégration de preuves multimodales dans un raisonnement structuré, couplée à un alignement orienté récupération, renforce efficacement la cohérence sémantique intermodale et améliore la capacité d'appariement fin du modèle ainsi que sa généralisation à des scénarios complexes. Notre travail démontre qu'une optimisation ciblée du raisonnement peut significativement améliorer la qualité des représentations multimodales, offrant une solution pratique et efficace pour le développement d'UME piloté par le raisonnement.
English
Leveraging Multimodal Large Language Models (MLLMs) has become pivotal for advancing Universal Multimodal Embeddings (UME) in addressing diverse cross-modal tasks. Recent studies demonstrate that incorporating generative Chain-of-Thought (CoT) reasoning can substantially enhance task-specific representations compared to discriminative methods. However, the generated reasoning CoTs of existing generative embedding methods are limited to the textual analysis of queries and are irrelevant to the retrieval of the targets. To address these limitations, we propose a reasoning-driven UME framework that integrates Embedder-Guided Reinforcement Learning (EG-RL) to optimize the Reasoner to produce evidential Traceability CoT (T-CoT). Our key contributions are threefold: (1) We design an EG-RL framework where the Embedder provides explicit supervision to the Reasoner, ensuring the generated CoT traces are aligned with embedding tasks. (2) We introduce T-CoT, which extracts critical multimodal cues to focus on retrieval-relevant elements and provides multimodal inputs for the Embedder. (3) With limited computational resources, our framework outperforms the pioneering embedding model on both MMEB-V2 and UVRB benchmarks. The integration of multimodal evidence in structured reasoning, paired with retrieval-oriented alignment, effectively strengthens cross-modal semantic consistency and boosts the fine-grained matching capability of the model as well as the generalization across complex scenarios. Our work demonstrates that targeted reasoning optimization can significantly improve multimodal embedding quality, providing a practical and efficient solution for reasoning-driven UME development.