MMEmb-R1: Incorporamento Multimodale Potenziato dal Ragionamento con Selezione Consapevole delle Coppie e Controllo Adattivo

Abstract

I modelli linguistici multimodali (MLLM) sono stati applicati con successo a compiti di embedding multimodale, ma le loro capacità di ragionamento generativo rimangono sottoutilizzate. L'incorporazione diretta del ragionamento a catena di pensieri nell'apprendimento di embedding introduce due sfide fondamentali. In primo luogo, il disallineamento strutturale tra il ragionamento a livello di istanza e la supervisione contrastiva a coppie può portare a comportamenti di scorciatoia, dove il modello apprende semplicemente il formato superficiale del ragionamento. In secondo luogo, il ragionamento non è universalmente vantaggioso per i compiti di embedding. Forzare il ragionamento per tutti gli input può introdurre calcoli e latenze non necessari, e può persino oscurare i segnali semantici salienti per casi semplici. Per affrontare questi problemi, proponiamo MMEmb-R1, un framework di embedding multimodale adattivo basato sul ragionamento. Formuliamo il ragionamento come una variabile latente e introduciamo una selezione di ragionamento consapevole delle coppie che utilizza l'intervento controfattuale per identificare i percorsi di ragionamento vantaggiosi per l'allineamento query-bersaglio. Inoltre, adottiamo l'apprendimento per rinforzo per richiamare selettivamente il ragionamento solo quando necessario. Esperimenti sul benchmark MMEB-V2 dimostrano che il nostro modello raggiunge un punteggio di 71,2 con soli 4B di parametri, stabilendo un nuovo stato dell'arte mentre riduce significativamente l'overhead di ragionamento e la latenza di inferenza.

English

MLLMs have been successfully applied to multimodal embedding tasks, yet their generative reasoning capabilities remain underutilized. Directly incorporating chain-of-thought reasoning into embedding learning introduces two fundamental challenges. First, structural misalignment between instance-level reasoning and pairwise contrastive supervision may lead to shortcut behavior, where the model merely learns the superficial format of reasoning. Second, reasoning is not universally beneficial for embedding tasks. Enforcing reasoning for all inputs may introduce unnecessary computation and latency, and can even obscure salient semantic signals for simple cases. To address these issues, we propose MMEmb-R1, an adaptive reasoning-based multimodal embedding framework. We formulate reasoning as a latent variable and introduce pair-aware reasoning selection that employs counterfactual intervention to identify reasoning paths beneficial for query-target alignment. Furthermore, we adopt reinforcement learning to selectively invoke reasoning only when necessary. Experiments on the MMEB-V2 benchmark demonstrate that our model achieves a score of 71.2 with only 4B parameters, establishing a new state-of-the-art while significantly reducing reasoning overhead and inference latency.

MMEmb-R1: Incorporamento Multimodale Potenziato dal Ragionamento con Selezione Consapevole delle Coppie e Controllo Adattivo

MMEmb-R1: Reasoning-Enhanced Multimodal Embedding with Pair-Aware Selection and Adaptive Control

Abstract

Support