Embed-RL: Apprendimento per Rinforzo per Embedding Multimodali Guidati dal Ragionamento

Abstract

L'utilizzo di modelli linguistici multimodali di grandi dimensioni (MLLM) è diventato fondamentale per far progredire gli embedding multimodali universali (UME) nell'affrontare compiti cross-modali diversificati. Studi recenti dimostrano che l'incorporazione del ragionamento generativo a catena del pensiero (CoT) può migliorare sostanzialmente le rappresentazioni specifiche per il compito rispetto ai metodi discriminativi. Tuttavia, i CoT generati dai metodi di embedding generativi esistenti si limitano all'analisi testuale delle query e sono irrilevanti per il recupero dei target. Per affrontare queste limitazioni, proponiamo un framework UME guidato dal ragionamento che integra l'apprendimento per rinforzo guidato dall'Embedder (EG-RL) per ottimizzare il Reasoner a produrre CoT di tracciabilità evidenziale (T-CoT). I nostri contributi chiave sono tre: (1) Progettiamo un framework EG-RL in cui l'Embedder fornisce supervisione esplicita al Reasoner, garantendo che le tracce CoT generate siano allineate con i compiti di embedding. (2) Introduciamo il T-CoT, che estrae indizi multimodali critici per focalizzarsi sugli elementi rilevanti per il recupero e fornisce input multimodali all'Embedder. (3) Con risorse computazionali limitate, il nostro framework supera il modello di embedding pionieristico su entrambi i benchmark MMEB-V2 e UVRB. L'integrazione di evidenze multimodali nel ragionamento strutturato, abbinata all'allineamento orientato al recupero, rafforza efficacemente la consistenza semantica cross-modale e potenzia la capacità di matching granulare del modello, nonché la generalizzazione attraverso scenari complessi. Il nostro lavoro dimostra che l'ottimizzazione mirata del ragionamento può migliorare significativamente la qualità degli embedding multimodali, fornendo una soluzione pratica ed efficiente per lo sviluppo di UME guidati dal ragionamento.

English

Leveraging Multimodal Large Language Models (MLLMs) has become pivotal for advancing Universal Multimodal Embeddings (UME) in addressing diverse cross-modal tasks. Recent studies demonstrate that incorporating generative Chain-of-Thought (CoT) reasoning can substantially enhance task-specific representations compared to discriminative methods. However, the generated reasoning CoTs of existing generative embedding methods are limited to the textual analysis of queries and are irrelevant to the retrieval of the targets. To address these limitations, we propose a reasoning-driven UME framework that integrates Embedder-Guided Reinforcement Learning (EG-RL) to optimize the Reasoner to produce evidential Traceability CoT (T-CoT). Our key contributions are threefold: (1) We design an EG-RL framework where the Embedder provides explicit supervision to the Reasoner, ensuring the generated CoT traces are aligned with embedding tasks. (2) We introduce T-CoT, which extracts critical multimodal cues to focus on retrieval-relevant elements and provides multimodal inputs for the Embedder. (3) With limited computational resources, our framework outperforms the pioneering embedding model on both MMEB-V2 and UVRB benchmarks. The integration of multimodal evidence in structured reasoning, paired with retrieval-oriented alignment, effectively strengthens cross-modal semantic consistency and boosts the fine-grained matching capability of the model as well as the generalization across complex scenarios. Our work demonstrates that targeted reasoning optimization can significantly improve multimodal embedding quality, providing a practical and efficient solution for reasoning-driven UME development.

Embed-RL: Apprendimento per Rinforzo per Embedding Multimodali Guidati dal Ragionamento

Embed-RL: Reinforcement Learning for Reasoning-Driven Multimodal Embeddings

Abstract

Support