Embed-RL: Verstärkendes Lernen für reasoning-gesteuerte multimodale Einbettungen
Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings
February 14, 2026
papers.authors: Haonan Jiang, Yuji Wang, Yongjie Zhu, Xin Lu, Wenyu Qin, Meng Wang, Pengfei Wan, Yansong Tang
cs.AI
papers.abstract
Die Nutzung multimodaler großer Sprachmodelle (MLLMs) hat sich als entscheidend für die Weiterentwicklung universeller multimodaler Embeddings (UME) zur Bewältigung vielfältiger cross-modaler Aufgaben erwiesen. Jüngste Studien zeigen, dass die Einbeziehung generativer Chain-of-Thought (CoT)-Reasoning-Prozesse task-spezifische Repräsentationen im Vergleich zu diskriminativen Methoden erheblich verbessern kann. Allerdings beschränken sich die generierten Reasoning-CoTs bestehender generativer Embedding-Methoden auf die textuelle Analyse von Anfragen und sind für den Abruf der Ziele irrelevant. Um diese Einschränkungen zu überwinden, schlagen wir ein reasoning-gesteuertes UME-Framework vor, das Embedder-geführtes bestärkendes Lernen (EG-RL) integriert, um den Reasoner zu optimieren, evidenzbasierte Traceability-CoTs (T-CoTS) zu erzeugen. Unsere wesentlichen Beiträge sind dreifach: (1) Wir entwerfen ein EG-RL-Framework, bei dem der Embedder explizite Supervision für den Reasoner bereitstellt und sicherstellt, dass die generierten CoT-Spuren mit Embedding-Aufgaben abgestimmt sind. (2) Wir führen T-CoTS ein, die kritische multimodale Hinweise extrahieren, um auf abrufrelevante Elemente zu fokussieren, und multimodale Eingaben für den Embedder liefern. (3) Mit begrenzten Rechenressourcen übertrifft unser Framework das wegweisende Embedding-Modell auf beiden Benchmarks MMEB-V2 und UVRB. Die Integration multimodaler Evidenz in strukturiertes Reasoning, gepaart mit abruforientierter Ausrichtung, stärkt effektiv die cross-modale semantische Konsistenz und steigert sowohl die Feinabstimmungsfähigkeit des Modells als auch die Generalisierung über komplexe Szenarien hinweg. Unsere Arbeit zeigt, dass zielgerichtete Reasoning-Optimierung die Qualität multimodaler Embeddings signifikant verbessern kann und eine praktische sowie effiziente Lösung für reasoning-gesteuerte UME-Entwicklung bietet.
English
Leveraging Multimodal Large Language Models (MLLMs) has become pivotal for advancing Universal Multimodal Embeddings (UME) in addressing diverse cross-modal tasks. Recent studies demonstrate that incorporating generative Chain-of-Thought (CoT) reasoning can substantially enhance task-specific representations compared to discriminative methods. However, the generated reasoning CoTs of existing generative embedding methods are limited to the textual analysis of queries and are irrelevant to the retrieval of the targets. To address these limitations, we propose a reasoning-driven UME framework that integrates Embedder-Guided Reinforcement Learning (EG-RL) to optimize the Reasoner to produce evidential Traceability CoT (T-CoT). Our key contributions are threefold: (1) We design an EG-RL framework where the Embedder provides explicit supervision to the Reasoner, ensuring the generated CoT traces are aligned with embedding tasks. (2) We introduce T-CoT, which extracts critical multimodal cues to focus on retrieval-relevant elements and provides multimodal inputs for the Embedder. (3) With limited computational resources, our framework outperforms the pioneering embedding model on both MMEB-V2 and UVRB benchmarks. The integration of multimodal evidence in structured reasoning, paired with retrieval-oriented alignment, effectively strengthens cross-modal semantic consistency and boosts the fine-grained matching capability of the model as well as the generalization across complex scenarios. Our work demonstrates that targeted reasoning optimization can significantly improve multimodal embedding quality, providing a practical and efficient solution for reasoning-driven UME development.