LatentOmni: Heroverweging van omnimodaal begrip via geïntegreerde audio-visuele latente redenering

Samenvatting

Gezamenlijk audio-visueel redeneren is essentieel voor omnimodaal begrip, maar huidige multimodale grote taalmodellen (MLLM's) worstelen nog steeds wanneer het redeneren fijnmazig bewijs uit beide modaliteiten vereist. Een centrale beperking is dat expliciete op tekst gebaseerde keten-van-gedachten (CoT) continue audio-visuele signalen comprimeert tot discrete tokens, waardoor de temporele verankering verzwakt en tussenredeneringen naar taalprioriteiten verschuiven. Wij betogen dat een uniforme latente ruimte een beter medium is voor dergelijk redeneren, omdat het dichte sensorische informatie behoudt terwijl het compatibel blijft met autoregressieve generatie. Op basis van dit inzicht stellen we LatentOmni voor, een cross-modaal redeneerkader dat tekstueel redeneren afwisselt met audio-visuele latente toestanden. LatentOmni introduceert supervisie op kenmerkniveau om latente redeneertoestanden af te stemmen op taakrelevante sensorische kenmerken en gebruikt Omni-Sync Positie-Embedding (OSPE) om temporele consistentie te behouden tussen latente audio- en visuele toestanden. Verder construeren we LatentOmni-Instruct-35K, een dataset van audio-visueel intercalerende redeneringstrajecten voor het superviseren van redeneren in de latente ruimte. Uitgebreide evaluatie op meerdere audio-visuele redeneerbenchmarks toont aan dat LatentOmni de beste prestaties levert onder de geëvalueerde open-sourcemodellen en consequent beter presteert dan de expliciete-tekst-CoT-baseline, waarmee gezamenlijk redeneren in de latente ruimte wordt ondersteund als een veelbelovende weg naar sterker omnimodaal begrip.

English

Joint audio-visual reasoning is essential for omnimodal understanding, yet current multimodal large language models (MLLMs) still struggle when reasoning requires fine-grained evidence from both modalities. A central limitation is that explicit text-based chain-of-thought (CoT) compresses continuous audio-visual signals into discrete tokens, weakening temporal grounding and shifting intermediate reasoning toward language priors. We argue that a unified latent space is a better medium for such reasoning because it preserves dense sensory information while remaining compatible with autoregressive generation. Based on this insight, we propose LatentOmni, a cross-modal reasoning framework that interleaves textual reasoning with audio-visual latent states. LatentOmni introduces feature-level supervision to align latent reasoning states with task-relevant sensory features and uses Omni-Sync Position Embedding (OSPE) to maintain temporal consistency between latent audio and visual states. We further construct LatentOmni-Instruct-35K, a dataset of audio-visual interleaved reasoning trajectories for supervising latent-space reasoning. Comprehensive evaluation across multiple audio-visual reasoning benchmarks demonstrates that LatentOmni achieves the best performance among the evaluated open-source models and consistently outperforms the Explicit Text CoT baseline, supporting latent-space joint reasoning as a promising path toward stronger omnimodal understanding.