PLUME: Universele Multimodale Inbedding op Basis van Latent Redeneren

Samenvatting

Universele multimodale inbedding (UME) brengt heterogene invoer met één enkel model in een gedeelde retrievalruimte. Recente benaderingen verbeteren UME door expliciete chain-of-thought (CoT)-redeneringen te genereren voordat inbeddingen worden geëxtraheerd, waardoor multimodale grote-taalmodellen complexe query-intenties beter kunnen afleiden. Expliciete CoT brengt echter aanzienlijke inferentie-overhead met zich mee en kan rijk multimodaal bewijs samendrukken in een nauw tekstueel knelpunt. Wij stellen PLUME voor, een latent redeneerkader dat UME verbetert door verbaal gemaakte CoT te vervangen door een korte autoregressieve reeks van continue latente toestanden. Om diverse multimodale query's te ondersteunen, introduceert PLUME verder een semantisch-anker-gestuurde transitie-adapter die de latente reeks langs verschillende redeneertrajecturen stuurt binnen hetzelfde vaste rekenbudget. Om de training te stabiliseren, hanteert PLUME een progressief expliciet-naar-latent curriculum dat verbale redenering alleen als tijdelijk trainingssteiger gebruikt en dit gedrag geleidelijk overdraagt naar verborgen-toestandsberekening, waardoor expliciete CoT tijdens inferentie wordt geëlimineerd. Op de 78-taken MMEB-v2-benchmark presteert PLUME beter dan sterke expliciete-CoT UME-baselines, terwijl het redeneren wordt teruggebracht van honderden gegenereerde tokens naar minder dan 10 latente stappen, wat een meer dan 30x snellere inferentie oplevert. PLUME is bijzonder geschikt voor retrievalsettings waar relevant bewijs dicht, structureel complex en moeilijk te organiseren is via verbale tussentijdse redeneringen, zoals video- en visuele documentretrieval. Deze resultaten tonen aan dat gestructureerde latente berekening de voordelen van tussentijds redeneren kan behouden zonder de overhead van expliciete redeneringsgeneratie, wat een sterker en efficiënter paradigma biedt voor praktische retrievalsystemen.

English

Universal multimodal embedding (UME) maps heterogeneous inputs into a shared retrieval space with a single model. Recent approaches improve UME by generating explicit chain-of-thought (CoT) rationales before extracting embeddings, enabling multimodal large language models to better infer complex query intent. However, explicit CoT incurs substantial inference overhead and can compress rich multimodal evidence into a narrow textual bottleneck. We propose PLUME, a latent reasoning framework that advances UME by replacing verbalized CoT with a short autoregressive rollout of continuous latent states. To support diverse multimodal queries, PLUME further introduces a semantic-anchor-guided transition adapter that steers latent rollout along different reasoning trajectories under the same fixed computation budget. To stabilize training, PLUME adopts a progressive explicit-to-latent curriculum that uses verbalized reasoning only as a temporary training scaffold and gradually transfers this behavior into hidden-state computation, eliminating explicit CoT at inference. On the 78-task MMEB-v2 benchmark, PLUME outperforms strong explicit-CoT UME baselines while reducing reasoning from hundreds of generated tokens to fewer than 10 latent steps, delivering over 30x faster inference. PLUME is especially well suited to retrieval settings where relevant evidence is dense, structurally complex, and difficult to organize through verbalized intermediate rationales, such as video and visual document retrieval. These results show that structured latent computation can preserve the benefits of intermediate reasoning without the overhead of explicit rationale generation, providing a stronger and more efficient paradigm for practical retrieval systems.

PLUME: Universele Multimodale Inbedding op Basis van Latent Redeneren

PLUME: Latent Reasoning Based Universal Multimodal Embedding

Samenvatting

Support