PLUME: Универсальное мультимодальное векторное представление на основе латентных рассуждений

Аннотация

Универсальное мультимодальное векторное представление (UME) отображает гетерогенные входные данные в общее пространство поиска с помощью единой модели. Современные подходы улучшают UME, генерируя явные причинно-следственные обоснования (CoT) перед извлечением эмбеддингов, что позволяет большим мультимодальным языковым моделям лучше выводить сложные намерения запроса. Однако явный CoT влечет значительные вычислительные затраты на вывод и может сжимать богатые мультимодальные данные в узкое текстовое «бутылочное горлышко». Мы предлагаем PLUME —框架 скрытого рассуждения, который развивает UME, заменяя вербализованный CoT коротким авторегрессионным развертыванием непрерывных скрытых состояний. Для поддержки разнообразных мультимодальных запросов PLUME дополнительно вводит адаптер переходов с семантическими якорями, который направляет развертывание латентных состояний по различным траекториям рассуждений в рамках фиксированного вычислительного бюджета. Для стабилизации обучения PLUME использует прогрессивную учебную программу «от явного к скрытому», которая применяет вербализованные рассуждения лишь как временную обучающую опору и постепенно переносит это поведение в вычисления скрытых состояний, исключая явный CoT на этапе вывода. На наборе задач MMEB-v2, состоящем из 78 испытаний, PLUME превосходит сильные базовые модели UME с явным CoT, сокращая рассуждения с сотен сгенерированных токенов до менее чем 10 скрытых шагов, что обеспечивает более чем 30-кратное ускорение вывода. PLUME особенно хорошо подходит для задач поиска, где релевантные данные плотны, структурно сложны и трудноорганизуемы через вербализованные промежуточные обоснования, таких как поиск по видео и визуальным документам. Эти результаты демонстрируют, что структурированные латентные вычисления могут сохранять преимущества промежуточных рассуждений без затрат на генерацию явных обоснований, предлагая более мощную и эффективную парадигму для практических поисковых систем.

English

Universal multimodal embedding (UME) maps heterogeneous inputs into a shared retrieval space with a single model. Recent approaches improve UME by generating explicit chain-of-thought (CoT) rationales before extracting embeddings, enabling multimodal large language models to better infer complex query intent. However, explicit CoT incurs substantial inference overhead and can compress rich multimodal evidence into a narrow textual bottleneck. We propose PLUME, a latent reasoning framework that advances UME by replacing verbalized CoT with a short autoregressive rollout of continuous latent states. To support diverse multimodal queries, PLUME further introduces a semantic-anchor-guided transition adapter that steers latent rollout along different reasoning trajectories under the same fixed computation budget. To stabilize training, PLUME adopts a progressive explicit-to-latent curriculum that uses verbalized reasoning only as a temporary training scaffold and gradually transfers this behavior into hidden-state computation, eliminating explicit CoT at inference. On the 78-task MMEB-v2 benchmark, PLUME outperforms strong explicit-CoT UME baselines while reducing reasoning from hundreds of generated tokens to fewer than 10 latent steps, delivering over 30x faster inference. PLUME is especially well suited to retrieval settings where relevant evidence is dense, structurally complex, and difficult to organize through verbalized intermediate rationales, such as video and visual document retrieval. These results show that structured latent computation can preserve the benefits of intermediate reasoning without the overhead of explicit rationale generation, providing a stronger and more efficient paradigm for practical retrieval systems.

PLUME: Универсальное мультимодальное векторное представление на основе латентных рассуждений

PLUME: Latent Reasoning Based Universal Multimodal Embedding

Аннотация

Support