LatentOmni: 統一的な視聴覚潜在推論によるオムニモーダル理解の再考
LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning
May 21, 2026
著者: Yifan Dai, Zhenhua Wu, Bohan Zeng, Daili Hua, Jialing Liu, Bozhou Li, Yuran Wang, Chengzhuo Tong, Hao Liang, Xiaochen Ma, Junbo Niu, Tianyu Guo, Yang Shi, Yue Ding, Yiyan Ji, Bingyin Mei, Yushuo Guan, Yuanxing Zhang, Pengfei Wan, Fangcheng Fu, Wentao Zhang
cs.AI
要旨
共同音声映像推論は全モーダル理解に不可欠であるが、現在のマルチモーダル大規模言語モデル(MLLM)は、両モダリティからの詳細な証拠を必要とする推論において依然として困難を抱えている。主な制約は、明示的なテキストベースの思考連鎖(CoT)が連続的な音声映像信号を離散トークンに圧縮し、時間的グラウンディングを弱めるとともに、中間推論を言語的先行知識へと偏らせる点にある。我々は、統一された潜在空間が、高密度な感覚情報を保持しつつ自己回帰生成と両立可能であるため、この種の推論により適した媒体であると主張する。この知見に基づき、テキスト推論と音声映像潜在状態をインターリーブするクロスモーダル推論フレームワークLatentOmniを提案する。LatentOmniは、特徴レベルの教師信号を導入して潜在推論状態をタスク関連の感覚特徴と整合させ、Omni-Sync位置埋め込み(OSPE)を用いて音声と映像の潜在状態間の時間的一貫性を維持する。さらに、潜在空間推論を教師するための音声映像インターリーブ推論軌跡データセットLatentOmni-Instruct-35Kを構築した。複数の音声映像推論ベンチマークによる包括的な評価の結果、LatentOmniは評価対象のオープンソースモデルの中で最高の性能を達成し、明示的テキストCoTベースラインを一貫して上回っており、潜在空間における共同推論がより強力な全モーダル理解への有望な道筋であることを示している。
English
Joint audio-visual reasoning is essential for omnimodal understanding, yet current multimodal large language models (MLLMs) still struggle when reasoning requires fine-grained evidence from both modalities. A central limitation is that explicit text-based chain-of-thought (CoT) compresses continuous audio-visual signals into discrete tokens, weakening temporal grounding and shifting intermediate reasoning toward language priors. We argue that a unified latent space is a better medium for such reasoning because it preserves dense sensory information while remaining compatible with autoregressive generation. Based on this insight, we propose LatentOmni, a cross-modal reasoning framework that interleaves textual reasoning with audio-visual latent states. LatentOmni introduces feature-level supervision to align latent reasoning states with task-relevant sensory features and uses Omni-Sync Position Embedding (OSPE) to maintain temporal consistency between latent audio and visual states. We further construct LatentOmni-Instruct-35K, a dataset of audio-visual interleaved reasoning trajectories for supervising latent-space reasoning. Comprehensive evaluation across multiple audio-visual reasoning benchmarks demonstrates that LatentOmni achieves the best performance among the evaluated open-source models and consistently outperforms the Explicit Text CoT baseline, supporting latent-space joint reasoning as a promising path toward stronger omnimodal understanding.