LatentOmni: Переосмысление омни-модального понимания через унифицированное аудио-визуальное латентное рассуждение

Аннотация

Совместное аудиовизуальное рассуждение необходимо для омнимодального понимания, однако современные мультимодальные большие языковые модели (MLLMs) все еще испытывают трудности, когда рассуждение требует точных (детальных) свидетельств из обеих модальностей. Ключевое ограничение заключается в том, что явная текстовая цепочка рассуждений (CoT) сжимает непрерывные аудиовизуальные сигналы в дискретные токены, ослабляя временную привязку и смещая промежуточные рассуждения в сторону языковых априорных знаний. Мы утверждаем, что единое латентное пространство является более подходящей средой для таких рассуждений, поскольку оно сохраняет плотную сенсорную информацию, оставаясь при этом совместимым с авторегрессионной генерацией. Основываясь на этом понимании, мы предлагаем LatentOmni — межмодальный фреймворк рассуждений, который чередует текстовые рассуждения с аудиовизуальными латентными состояниями. LatentOmni вводит контроль на уровне признаков для выравнивания латентных состояний рассуждений с релевантными задаче сенсорными признаками и использует Omni-Sync Position Embedding (OSPE) для поддержания временной согласованности между латентными аудио- и визуальными состояниями. Мы также создаем набор данных LatentOmni-Instruct-35K, содержащий перемежающиеся траектории аудиовизуальных рассуждений для обучения рассуждению в латентном пространстве. Комплексная оценка на нескольких бенчмарках аудиовизуального рассуждения показывает, что LatentOmni достигает наилучших результатов среди оцениваемых моделей с открытым исходным кодом и стабильно превосходит базовый подход с явной текстовой CoT, что подтверждает перспективность совместного рассуждения в латентном пространстве как пути к более сильному омнимодальному пониманию.

English

Joint audio-visual reasoning is essential for omnimodal understanding, yet current multimodal large language models (MLLMs) still struggle when reasoning requires fine-grained evidence from both modalities. A central limitation is that explicit text-based chain-of-thought (CoT) compresses continuous audio-visual signals into discrete tokens, weakening temporal grounding and shifting intermediate reasoning toward language priors. We argue that a unified latent space is a better medium for such reasoning because it preserves dense sensory information while remaining compatible with autoregressive generation. Based on this insight, we propose LatentOmni, a cross-modal reasoning framework that interleaves textual reasoning with audio-visual latent states. LatentOmni introduces feature-level supervision to align latent reasoning states with task-relevant sensory features and uses Omni-Sync Position Embedding (OSPE) to maintain temporal consistency between latent audio and visual states. We further construct LatentOmni-Instruct-35K, a dataset of audio-visual interleaved reasoning trajectories for supervising latent-space reasoning. Comprehensive evaluation across multiple audio-visual reasoning benchmarks demonstrates that LatentOmni achieves the best performance among the evaluated open-source models and consistently outperforms the Explicit Text CoT baseline, supporting latent-space joint reasoning as a promising path toward stronger omnimodal understanding.