PLUME: Universelles multimodales Einbettungsmodell basierend auf latentem Schließen
PLUME: Latent Reasoning Based Universal Multimodal Embedding
April 2, 2026
Autoren: Chenwei He, Xiangzhao Hao, Tianyu Yang, Yuxiang Ma, Yuheng Jia, Lingxiang Wu, Chaoyang Zhao, Haiyun Guo, Jinqiao Wang
cs.AI
Zusammenfassung
Universelle multimodale Einbettung (UME) bildet heterogene Eingaben mit einem einzigen Modell in einen gemeinsamen Retrieval-Raum ab. Aktuelle Ansätze verbessern UME, indem sie explizite Chain-of-Thought (CoT)-Begründungen generieren, bevor Einbettungen extrahiert werden. Dies ermöglicht es multimodalen großen Sprachmodellen, komplexe Abfrageabsichten besser abzuleiten. Explizite CoT verursacht jedoch erheblichen Inferenz-Overhead und kann umfangreiche multimodale Evidenz in einen engen textuellen Flaschenhals komprimieren. Wir schlagen PLUME vor, ein latentes Reasoning-Framework, das UME weiterentwickelt, indem verbalisierte CoT durch einen kurzen autoregressiven "Rollout" kontinuierlicher latenter Zustände ersetzt wird. Um diverse multimodale Abfragen zu unterstützen, führt PLUME weiterhin einen transitionsadapter ein, der durch semantische Anker geleitet wird und den latenten Rollout entlang verschiedener Reasoning-Pfade unter demselben festen Rechenbudget steuert. Um das Training zu stabilisieren, nutzt PLUME einen progressiven explizit-zu-latent Lehrplan, der verbalisiertes Reasoning nur als temporäres Trainingsgerüst verwendet und dieses Verhalten schrittweise in die Berechnung versteckter Zustände überträgt, wodurch explizite CoT bei der Inferenz entfällt. Auf dem 78-Task-MMEB-v2-Benchmark übertrifft PLUME starke explizite-CoT-UME-Baselines, reduziert das Reasoning von Hunderten generierter Tokens auf weniger als 10 latente Schritte und liefert eine über 30x schnellere Inferenz. PLUME eignet sich besonders für Retrieval-Szenarien, in denen relevante Evidenz dicht, strukturell komplex und schwer durch verbalisierte Zwischenbegründungen zu organisieren ist, wie z.B. Video- und visuelle Dokumentenretrieval. Diese Ergebnisse zeigen, dass strukturierte latente Berechnung die Vorteile von Zwischenreasoning bewahren kann, ohne den Overhead der expliziten Begründungsgenerierung, und damit ein leistungsfähigeres und effizienteres Paradigma für praktische Retrieval-Systeme bietet.
English
Universal multimodal embedding (UME) maps heterogeneous inputs into a shared retrieval space with a single model. Recent approaches improve UME by generating explicit chain-of-thought (CoT) rationales before extracting embeddings, enabling multimodal large language models to better infer complex query intent. However, explicit CoT incurs substantial inference overhead and can compress rich multimodal evidence into a narrow textual bottleneck. We propose PLUME, a latent reasoning framework that advances UME by replacing verbalized CoT with a short autoregressive rollout of continuous latent states. To support diverse multimodal queries, PLUME further introduces a semantic-anchor-guided transition adapter that steers latent rollout along different reasoning trajectories under the same fixed computation budget. To stabilize training, PLUME adopts a progressive explicit-to-latent curriculum that uses verbalized reasoning only as a temporary training scaffold and gradually transfers this behavior into hidden-state computation, eliminating explicit CoT at inference. On the 78-task MMEB-v2 benchmark, PLUME outperforms strong explicit-CoT UME baselines while reducing reasoning from hundreds of generated tokens to fewer than 10 latent steps, delivering over 30x faster inference. PLUME is especially well suited to retrieval settings where relevant evidence is dense, structurally complex, and difficult to organize through verbalized intermediate rationales, such as video and visual document retrieval. These results show that structured latent computation can preserve the benefits of intermediate reasoning without the overhead of explicit rationale generation, providing a stronger and more efficient paradigm for practical retrieval systems.