LatentOmni : Repenser la compréhension omni-modale via un raisonnement latent audio-visuel unifié

Résumé

Le raisonnement audiovisuel conjoint est essentiel pour une compréhension omnimodale, mais les modèles de langage multimodaux de grande taille (MLLMs) actuels peinent encore lorsque le raisonnement nécessite des preuves fines provenant des deux modalités. Une limitation centrale réside dans le fait que le raisonnement explicite en chaîne de pensée (CoT) basé sur le texte compresse les signaux audiovisuels continus en tokens discrets, affaiblissant ainsi l’ancrage temporel et orientant le raisonnement intermédiaire vers des a priori linguistiques. Nous soutenons qu’un espace latent unifié constitue un meilleur support pour un tel raisonnement, car il préserve une information sensorielle dense tout en restant compatible avec la génération autorégressive. Sur la base de cette intuition, nous proposons LatentOmni, un cadre de raisonnement cross-modal qui entrelace le raisonnement textuel avec des états latents audiovisuels. LatentOmni introduit une supervision au niveau des caractéristiques pour aligner les états latents de raisonnement avec les caractéristiques sensorielles pertinentes pour la tâche, et utilise l’Embedding de Position Omni-Sync (OSPE) pour maintenir la cohérence temporelle entre les états latents audio et visuels. Nous construisons en outre LatentOmni-Instruct-35K, un ensemble de données de trajectoires de raisonnement entrelacées audiovisuelles pour superviser le raisonnement dans l’espace latent. Une évaluation complète sur plusieurs benchmarks de raisonnement audiovisuel montre que LatentOmni atteint les meilleures performances parmi les modèles open-source évalués et surpasse systématiquement la baseline explicite Text CoT, soutenant ainsi le raisonnement conjoint dans l’espace latent comme une voie prometteuse vers une compréhension omnimodale plus robuste.

English

Joint audio-visual reasoning is essential for omnimodal understanding, yet current multimodal large language models (MLLMs) still struggle when reasoning requires fine-grained evidence from both modalities. A central limitation is that explicit text-based chain-of-thought (CoT) compresses continuous audio-visual signals into discrete tokens, weakening temporal grounding and shifting intermediate reasoning toward language priors. We argue that a unified latent space is a better medium for such reasoning because it preserves dense sensory information while remaining compatible with autoregressive generation. Based on this insight, we propose LatentOmni, a cross-modal reasoning framework that interleaves textual reasoning with audio-visual latent states. LatentOmni introduces feature-level supervision to align latent reasoning states with task-relevant sensory features and uses Omni-Sync Position Embedding (OSPE) to maintain temporal consistency between latent audio and visual states. We further construct LatentOmni-Instruct-35K, a dataset of audio-visual interleaved reasoning trajectories for supervising latent-space reasoning. Comprehensive evaluation across multiple audio-visual reasoning benchmarks demonstrates that LatentOmni achieves the best performance among the evaluated open-source models and consistently outperforms the Explicit Text CoT baseline, supporting latent-space joint reasoning as a promising path toward stronger omnimodal understanding.