PLUME: Incorporamento Multimodale Universale Basato sul Ragionamento Latente

Abstract

L'incorporamento multimodale universale (UME) mappa input eterogenei in uno spazio di recupero condiviso mediante un singolo modello. Gli approcci recenti migliorano l'UME generando ragionamenti a catena del pensiero (CoT) espliciti prima di estrarre gli incorporamenti, consentendo ai grandi modelli linguistici multimodali di inferire meglio l'intento complesso delle query. Tuttavia, il CoT esplicito comporta un sovraccarico computazionale sostanziale e può comprimere ricche evidenze multimodali in un collo di bottiglia testuale ristretto. Proponiamo PLUME, un framework di ragionamento latente che avanza l'UME sostituendo il CoT verbalizzato con una breve sequenza autoregressiva di stati latenti continui. Per supportare query multimodali diverse, PLUME introduce inoltre un adattatore di transizione guidato da ancore semantiche che orienta l'evoluzione latente lungo diverse traiettorie di ragionamento mantenendo lo stesso budget computazionale fisso. Per stabilizzare l'addestramento, PLUME adotta un curriculum progressivo da esplicito a latente che utilizza il ragionamento verbalizzato solo come impalcatura temporanea e trasferisce gradualmente questo comportamento nel calcolo degli stati nascosti, eliminando il CoT esplicito durante l'inferenza. Sul benchmark MMEB-v2 di 78 task, PLUME supera solide baseline UME con CoT esplicito riducendo il ragionamento da centinaia di token generati a meno di 10 passi latenti, garantendo un'inferenza oltre 30 volte più veloce. PLUME è particolarmente adatto per contesti di retrieval dove l'evidenza rilevante è densa, strutturalmente complessa e difficile da organizzare attraverso ragionamenti intermedi verbalizzati, come il recupero di video e documenti visivi. Questi risultati dimostrano che il calcolo latente strutturato può preservare i vantaggi del ragionamento intermedio senza il sovraccarico della generazione esplicita di ragionamenti, fornendo un paradigma più forte ed efficiente per i sistemi di retrieval pratici.

English

Universal multimodal embedding (UME) maps heterogeneous inputs into a shared retrieval space with a single model. Recent approaches improve UME by generating explicit chain-of-thought (CoT) rationales before extracting embeddings, enabling multimodal large language models to better infer complex query intent. However, explicit CoT incurs substantial inference overhead and can compress rich multimodal evidence into a narrow textual bottleneck. We propose PLUME, a latent reasoning framework that advances UME by replacing verbalized CoT with a short autoregressive rollout of continuous latent states. To support diverse multimodal queries, PLUME further introduces a semantic-anchor-guided transition adapter that steers latent rollout along different reasoning trajectories under the same fixed computation budget. To stabilize training, PLUME adopts a progressive explicit-to-latent curriculum that uses verbalized reasoning only as a temporary training scaffold and gradually transfers this behavior into hidden-state computation, eliminating explicit CoT at inference. On the 78-task MMEB-v2 benchmark, PLUME outperforms strong explicit-CoT UME baselines while reducing reasoning from hundreds of generated tokens to fewer than 10 latent steps, delivering over 30x faster inference. PLUME is especially well suited to retrieval settings where relevant evidence is dense, structurally complex, and difficult to organize through verbalized intermediate rationales, such as video and visual document retrieval. These results show that structured latent computation can preserve the benefits of intermediate reasoning without the overhead of explicit rationale generation, providing a stronger and more efficient paradigm for practical retrieval systems.

PLUME: Incorporamento Multimodale Universale Basato sul Ragionamento Latente

PLUME: Latent Reasoning Based Universal Multimodal Embedding

Abstract

Support