LatentOmni: Repensando a Compreensão Omni-Modal via Raciocínio Latente Unificado Áudio-Visual

Resumo

O raciocínio conjunto audiovisual é essencial para a compreensão omnimodal, no entanto, os atuais modelos de linguagem multimodal de grande escala (MLLMs) ainda enfrentam dificuldades quando o raciocínio exige evidências refinadas de ambas as modalidades. Uma limitação central é que a cadeia de pensamento (CoT) explícita baseada em texto comprime sinais audiovisuais contínuos em tokens discretos, enfraquecendo o ancoramento temporal e deslocando o raciocínio intermediário em direção a prioridades linguísticas. Argumentamos que um espaço latente unificado é um meio melhor para tal raciocínio, pois preserva informações sensoriais densas enquanto permanece compatível com a geração autoregressiva. Com base nessa percepção, propomos o LatentOmni, uma estrutura de raciocínio cross-modal que intercala raciocínio textual com estados latentes audiovisuais. O LatentOmni introduz supervisão em nível de características para alinhar estados de raciocínio latentes com características sensoriais relevantes para a tarefa e usa a Omni-Sync Position Embedding (OSPE) para manter a consistência temporal entre estados latentes de áudio e visuais. Além disso, construímos o LatentOmni-Instruct-35K, um conjunto de dados de trajetórias de raciocínio intercaladas audiovisuais para supervisionar o raciocínio em espaço latente. A avaliação abrangente em vários benchmarks de raciocínio audiovisual demonstra que o LatentOmni alcança o melhor desempenho entre os modelos de código aberto avaliados e supera consistentemente a linha de base da CoT de texto explícito, apoiando o raciocínio conjunto em espaço latente como um caminho promissor para uma compreensão omnimodal mais forte.

English

Joint audio-visual reasoning is essential for omnimodal understanding, yet current multimodal large language models (MLLMs) still struggle when reasoning requires fine-grained evidence from both modalities. A central limitation is that explicit text-based chain-of-thought (CoT) compresses continuous audio-visual signals into discrete tokens, weakening temporal grounding and shifting intermediate reasoning toward language priors. We argue that a unified latent space is a better medium for such reasoning because it preserves dense sensory information while remaining compatible with autoregressive generation. Based on this insight, we propose LatentOmni, a cross-modal reasoning framework that interleaves textual reasoning with audio-visual latent states. LatentOmni introduces feature-level supervision to align latent reasoning states with task-relevant sensory features and uses Omni-Sync Position Embedding (OSPE) to maintain temporal consistency between latent audio and visual states. We further construct LatentOmni-Instruct-35K, a dataset of audio-visual interleaved reasoning trajectories for supervising latent-space reasoning. Comprehensive evaluation across multiple audio-visual reasoning benchmarks demonstrates that LatentOmni achieves the best performance among the evaluated open-source models and consistently outperforms the Explicit Text CoT baseline, supporting latent-space joint reasoning as a promising path toward stronger omnimodal understanding.