PLUME: Incrustación Multimodal Universal Basada en Razonamiento Latente

Resumen

La incrustación multimodal universal (UME) asigna entradas heterogéneas a un espacio de recuperación compartido mediante un modelo único. Los enfoques recientes mejoran la UME generando cadenas de pensamiento (CoT) explícitas antes de extraer las incrustaciones, permitiendo que los modelos lingüísticos multimodales grandes infieran mejor la intención de consultas complejas. Sin embargo, la CoT explícita conlleva una sobrecarga computacional sustancial en la inferencia y puede comprimir evidencia multimodal rica en un cuello de botella textual estrecho. Proponemos PLUME, un marco de razonamiento latente que avanza la UME reemplazando la CoT verbalizada con una secuencia autoregresiva corta de estados latentes continuos. Para manejar consultas multimodales diversas, PLUME introduce además un adaptador de transición guiado por anclajes semánticos que dirige el despliegue latente a lo largo de diferentes trayectorias de razonamiento bajo el mismo presupuesto computacional fijo. Para estabilizar el entrenamiento, PLUME adopta un currículo progresivo de explícito a latente que utiliza el razonamiento verbalizado solo como un andamiaje temporal de entrenamiento y transfiere gradualmente este comportamiento al cómputo de estados ocultos, eliminando la CoT explícita durante la inferencia. En el benchmark MMEB-v2 de 78 tareas, PLUME supera a los sólidos baselines de UME con CoT explícita mientras reduce el razonamiento de cientos de tokens generados a menos de 10 pasos latentes, logrando una inferencia más de 30 veces más rápida. PLUME es especialmente adecuado para entornos de recuperación donde la evidencia relevante es densa, estructuralmente compleja y difícil de organizar mediante racionales intermedios verbalizados, como la recuperación de documentos visuales y de video. Estos resultados demuestran que el cómputo latente estructurado puede preservar los beneficios del razonamiento intermedio sin la sobrecarga de generar racionales explícitos, proporcionando un paradigma más sólido y eficiente para sistemas de recuperación prácticos.

English

Universal multimodal embedding (UME) maps heterogeneous inputs into a shared retrieval space with a single model. Recent approaches improve UME by generating explicit chain-of-thought (CoT) rationales before extracting embeddings, enabling multimodal large language models to better infer complex query intent. However, explicit CoT incurs substantial inference overhead and can compress rich multimodal evidence into a narrow textual bottleneck. We propose PLUME, a latent reasoning framework that advances UME by replacing verbalized CoT with a short autoregressive rollout of continuous latent states. To support diverse multimodal queries, PLUME further introduces a semantic-anchor-guided transition adapter that steers latent rollout along different reasoning trajectories under the same fixed computation budget. To stabilize training, PLUME adopts a progressive explicit-to-latent curriculum that uses verbalized reasoning only as a temporary training scaffold and gradually transfers this behavior into hidden-state computation, eliminating explicit CoT at inference. On the 78-task MMEB-v2 benchmark, PLUME outperforms strong explicit-CoT UME baselines while reducing reasoning from hundreds of generated tokens to fewer than 10 latent steps, delivering over 30x faster inference. PLUME is especially well suited to retrieval settings where relevant evidence is dense, structurally complex, and difficult to organize through verbalized intermediate rationales, such as video and visual document retrieval. These results show that structured latent computation can preserve the benefits of intermediate reasoning without the overhead of explicit rationale generation, providing a stronger and more efficient paradigm for practical retrieval systems.

PLUME: Incrustación Multimodal Universal Basada en Razonamiento Latente

PLUME: Latent Reasoning Based Universal Multimodal Embedding

Resumen

Support