LatentOmni: Neubetrachtung des omni-modalen Verständnisses durch vereinheitlichtes audio-visuelles latentes Reasoning

Zusammenfassung

Eine gemeinsame audio-visuelle Schlussfolgerung ist für ein omnimodales Verständnis unerlässlich, dennoch haben aktuelle multimodale Large Language Models (MLLMs) weiterhin Schwierigkeiten, wenn für die Schlussfolgerung feinkörnige Evidenzen aus beiden Modalitäten erforderlich sind. Eine zentrale Einschränkung besteht darin, dass die explizite textbasierte Chain-of-Thought (CoT) kontinuierliche audio-visuelle Signale in diskrete Tokens komprimiert, wodurch die zeitliche Verankerung geschwächt und die Zwischenschlussfolgerung in Richtung sprachlicher Prioritäten verschoben wird. Wir argumentieren, dass ein einheitlicher latenter Raum ein besseres Medium für eine solche Schlussfolgerung darstellt, da er dichte sensorische Informationen bewahrt und gleichzeitig mit autoregressiver Generierung kompatibel bleibt. Basierend auf dieser Erkenntnis schlagen wir LatentOmni vor, ein cross-modales Reasoning-Framework, das textuelle Schlussfolgerungen mit audio-visuellen latenten Zuständen verschränkt. LatentOmni führt eine Supervision auf Merkmalsebene ein, um latente Reasoning-Zustände mit aufgabenrelevanten sensorischen Merkmalen abzugleichen, und verwendet die Omni-Sync Position Embedding (OSPE), um die zeitliche Konsistenz zwischen latenten Audio- und visuellen Zuständen aufrechtzuerhalten. Darüber hinaus erstellen wir LatentOmni-Instruct-35K, einen Datensatz mit audio-visuellen verschränkten Reasoning-Trajektorien zur Supervision des latenten Reasoning. Eine umfassende Evaluierung über mehrere Audio-Visual-Reasoning-Benchmarks hinweg zeigt, dass LatentOmni die beste Leistung unter den evaluierten Open-Source-Modellen erzielt und durchgängig die explizite Text-CoT-Baseline übertrifft, was das gemeinsame latente Reasoning als vielversprechenden Weg zu einem stärkeren omnimodalen Verständnis unterstützt.

English

Joint audio-visual reasoning is essential for omnimodal understanding, yet current multimodal large language models (MLLMs) still struggle when reasoning requires fine-grained evidence from both modalities. A central limitation is that explicit text-based chain-of-thought (CoT) compresses continuous audio-visual signals into discrete tokens, weakening temporal grounding and shifting intermediate reasoning toward language priors. We argue that a unified latent space is a better medium for such reasoning because it preserves dense sensory information while remaining compatible with autoregressive generation. Based on this insight, we propose LatentOmni, a cross-modal reasoning framework that interleaves textual reasoning with audio-visual latent states. LatentOmni introduces feature-level supervision to align latent reasoning states with task-relevant sensory features and uses Omni-Sync Position Embedding (OSPE) to maintain temporal consistency between latent audio and visual states. We further construct LatentOmni-Instruct-35K, a dataset of audio-visual interleaved reasoning trajectories for supervising latent-space reasoning. Comprehensive evaluation across multiple audio-visual reasoning benchmarks demonstrates that LatentOmni achieves the best performance among the evaluated open-source models and consistently outperforms the Explicit Text CoT baseline, supporting latent-space joint reasoning as a promising path toward stronger omnimodal understanding.