PLUME: Incorporação Multimodal Universal Baseada em Raciocínio Latente

Resumo

A incorporação multimodal universal (UME) mapeia entradas heterogêneas em um espaço de recuperação compartilhado usando um único modelo. Abordagens recentes melhoram a UME gerando racionalizações explícitas de cadeia de pensamento (CoT) antes de extrair as incorporações, permitindo que modelos de linguagem grandes multimodais infiram melhor a intenção de consultas complexas. No entanto, a CoT explícita incorre em sobrecarga substancial de inferência e pode comprimir evidências multimodais ricas em um gargalo textual estreito. Propomos a PLUME, uma estrutura de raciocínio latente que avança a UME substituindo a CoT verbalizada por uma breve sequência autoregressiva de estados latentes contínuos. Para suportar consultas multimodais diversas, a PLUME introduz ainda um adaptador de transição guiado por âncoras semânticas que direciona a sequência latente ao longo de diferentes trajetórias de raciocínio sob o mesmo orçamento fixo de computação. Para estabilizar o treinamento, a PLUME adota um currículo progressivo explícito-para-latente que usa o raciocínio verbalizado apenas como um andaime temporário de treinamento e transfere gradualmente esse comportamento para o cálculo de estados ocultos, eliminando a CoT explícita na inferência. No benchmark MMEB-v2 com 78 tarefas, a PLUME supera fortes baselines de UME com CoT explícita, enquanto reduz o raciocínio de centenas de tokens gerados para menos de 10 passos latentes, proporcionando inferência mais de 30 vezes mais rápida. A PLUME é especialmente adequada para configurações de recuperação onde a evidência relevante é densa, estruturalmente complexa e difícil de organizar por meio de racionalizações intermediárias verbalizadas, como na recuperação de vídeos e documentos visuais. Estes resultados mostram que o cálculo latente estruturado pode preservar os benefícios do raciocínio intermediário sem a sobrecarga da geração de racionalizações explícitas, fornecendo um paradigma mais forte e eficiente para sistemas práticos de recuperação.

English

Universal multimodal embedding (UME) maps heterogeneous inputs into a shared retrieval space with a single model. Recent approaches improve UME by generating explicit chain-of-thought (CoT) rationales before extracting embeddings, enabling multimodal large language models to better infer complex query intent. However, explicit CoT incurs substantial inference overhead and can compress rich multimodal evidence into a narrow textual bottleneck. We propose PLUME, a latent reasoning framework that advances UME by replacing verbalized CoT with a short autoregressive rollout of continuous latent states. To support diverse multimodal queries, PLUME further introduces a semantic-anchor-guided transition adapter that steers latent rollout along different reasoning trajectories under the same fixed computation budget. To stabilize training, PLUME adopts a progressive explicit-to-latent curriculum that uses verbalized reasoning only as a temporary training scaffold and gradually transfers this behavior into hidden-state computation, eliminating explicit CoT at inference. On the 78-task MMEB-v2 benchmark, PLUME outperforms strong explicit-CoT UME baselines while reducing reasoning from hundreds of generated tokens to fewer than 10 latent steps, delivering over 30x faster inference. PLUME is especially well suited to retrieval settings where relevant evidence is dense, structurally complex, and difficult to organize through verbalized intermediate rationales, such as video and visual document retrieval. These results show that structured latent computation can preserve the benefits of intermediate reasoning without the overhead of explicit rationale generation, providing a stronger and more efficient paradigm for practical retrieval systems.

PLUME: Incorporação Multimodal Universal Baseada em Raciocínio Latente

PLUME: Latent Reasoning Based Universal Multimodal Embedding

Resumo

Support