Embed-RL: Reinforcement Learning voor Redenering-Gestuurde Multimodale Embeddings

Samenvatting

Het benutten van Multimodale Large Language Models (MLLM's) is cruciaal geworden voor de vooruitgang van Universele Multimodale Embeddings (UME) bij het aanpakken van diverse cross-modale taken. Recente studies tonen aan dat het incorporeren van generatieve Chain-of-Thought (CoT) redenering de taakspecifieke representaties aanzienlijk kan verbeteren in vergelijking met discriminerende methoden. Echter, de gegenereerde redeneer-CoT's van bestaande generatieve embeddingmethoden zijn beperkt tot de tekstuele analyse van queries en zijn niet relevant voor het ophalen van de doelen. Om deze beperkingen aan te pakken, stellen we een redeneringsgestuurd UME-raamwerk voor dat Embedder-Guided Reinforcement Learning (EG-RL) integreert om de Reasoner te optimaliseren voor het produceren van een op bewijs gebaseerde Traceerbare CoT (T-CoT). Onze belangrijkste bijdragen zijn drievoudig: (1) We ontwerpen een EG-RL-raamwerk waarin de Embedder expliciet toezicht houdt op de Reasoner, zodat de gegenereerde CoT-sporen zijn afgestemd op embeddingtaken. (2) We introduceren T-CoT, die kritische multimodale aanwijzingen extraheert om zich te richten op retrieval-relevante elementen en multimodale inputs verschaft aan de Embedder. (3) Met beperkte rekenbronnen presteert ons raamwerk beter dan het baanbrekende embeddingmodel op zowel de MMEB-V2- als UVRB-benchmarks. De integratie van multimodaal bewijs in gestructureerde redenering, gekoppeld aan retrieval-gerichte afstemming, versterkt effectief de cross-modale semantische consistentie en verbetert zowel het fijnmazige matchingvermogen van het model als de generalisatie over complexe scenario's. Ons werk toont aan dat gerichte redeneeroptimalisatie de kwaliteit van multimodale embeddings aanzienlijk kan verbeteren, en biedt een praktische en efficiënte oplossing voor redeneringsgestuurde UME-ontwikkeling.

English

Leveraging Multimodal Large Language Models (MLLMs) has become pivotal for advancing Universal Multimodal Embeddings (UME) in addressing diverse cross-modal tasks. Recent studies demonstrate that incorporating generative Chain-of-Thought (CoT) reasoning can substantially enhance task-specific representations compared to discriminative methods. However, the generated reasoning CoTs of existing generative embedding methods are limited to the textual analysis of queries and are irrelevant to the retrieval of the targets. To address these limitations, we propose a reasoning-driven UME framework that integrates Embedder-Guided Reinforcement Learning (EG-RL) to optimize the Reasoner to produce evidential Traceability CoT (T-CoT). Our key contributions are threefold: (1) We design an EG-RL framework where the Embedder provides explicit supervision to the Reasoner, ensuring the generated CoT traces are aligned with embedding tasks. (2) We introduce T-CoT, which extracts critical multimodal cues to focus on retrieval-relevant elements and provides multimodal inputs for the Embedder. (3) With limited computational resources, our framework outperforms the pioneering embedding model on both MMEB-V2 and UVRB benchmarks. The integration of multimodal evidence in structured reasoning, paired with retrieval-oriented alignment, effectively strengthens cross-modal semantic consistency and boosts the fine-grained matching capability of the model as well as the generalization across complex scenarios. Our work demonstrates that targeted reasoning optimization can significantly improve multimodal embedding quality, providing a practical and efficient solution for reasoning-driven UME development.

Embed-RL: Reinforcement Learning voor Redenering-Gestuurde Multimodale Embeddings

Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings

Samenvatting

Support