PLUME : Plongement Multimodal Universel Basé sur un Raisonnement Latent

Résumé

L'incorporation multimodale universelle (UME) projette des entrées hétérogènes dans un espace de recherche partagé à l'aide d'un modèle unique. Les approches récentes améliorent l'UME en générant des rationalités explicites de type chaîne de pensée (CoT) avant d'extraire les embeddings, permettant aux grands modèles linguistiques multimodaux de mieux inférer l'intention complexe des requêtes. Cependant, la CoT explicite entraîne un surcoût substantiel d'inférence et peut comprimer des preuves multimodales riches dans un goulot d'étranglement textuel étroit. Nous proposons PLUME, un cadre de raisonnement latent qui fait progresser l'UME en remplaçant la CoT verbalisée par un déroulement autoregressif court d'états latents continus. Pour prendre en charge des requêtes multimodales diverses, PLUME introduit en outre un adaptateur de transition guidé par ancres sémantiques qui oriente le déroulement latent le long de différentes trajectoires de raisonnement sous le même budget de calcul fixe. Pour stabiliser l'entraînement, PLUME adopte un curriculum progressif explicite-vers-latent qui n'utilise le raisonnement verbalisé que comme échafaudage temporaire d'entraînement et transfère progressivement ce comportement dans le calcul des états cachés, éliminant la CoT explicite lors de l'inférence. Sur le benchmark MMEB-v2 comprenant 78 tâches, PLUME surpasse les solides bases de référence UME à CoT explicite tout en réduisant le raisonnement de centaines de tokens générés à moins de 10 étapes latentes, offrant une inférence plus de 30 fois plus rapide. PLUME est particulièrement adapté aux contextes de recherche où les preuves pertinentes sont denses, structurellement complexes et difficiles à organiser via des rationalités intermédiaires verbalisées, comme la recherche de documents visuels et vidéo. Ces résultats montrent que le calcul latent structuré peut préserver les avantages du raisonnement intermédiaire sans le surcoût de la génération de rationalités explicites, offrant un paradigme plus solide et plus efficace pour les systèmes de recherche pratiques.

English

Universal multimodal embedding (UME) maps heterogeneous inputs into a shared retrieval space with a single model. Recent approaches improve UME by generating explicit chain-of-thought (CoT) rationales before extracting embeddings, enabling multimodal large language models to better infer complex query intent. However, explicit CoT incurs substantial inference overhead and can compress rich multimodal evidence into a narrow textual bottleneck. We propose PLUME, a latent reasoning framework that advances UME by replacing verbalized CoT with a short autoregressive rollout of continuous latent states. To support diverse multimodal queries, PLUME further introduces a semantic-anchor-guided transition adapter that steers latent rollout along different reasoning trajectories under the same fixed computation budget. To stabilize training, PLUME adopts a progressive explicit-to-latent curriculum that uses verbalized reasoning only as a temporary training scaffold and gradually transfers this behavior into hidden-state computation, eliminating explicit CoT at inference. On the 78-task MMEB-v2 benchmark, PLUME outperforms strong explicit-CoT UME baselines while reducing reasoning from hundreds of generated tokens to fewer than 10 latent steps, delivering over 30x faster inference. PLUME is especially well suited to retrieval settings where relevant evidence is dense, structurally complex, and difficult to organize through verbalized intermediate rationales, such as video and visual document retrieval. These results show that structured latent computation can preserve the benefits of intermediate reasoning without the overhead of explicit rationale generation, providing a stronger and more efficient paradigm for practical retrieval systems.

PLUME : Plongement Multimodal Universel Basé sur un Raisonnement Latent

PLUME: Latent Reasoning Based Universal Multimodal Embedding

Résumé

Support