ChatPaper.aiChatPaper

LatentOmni: Repensando a Compreensão Omni-Modal via Raciocínio Latente Unificado Áudio-Visual

LatentOmni: Rethinking Omni-Modal Understanding via Unified Audio-Visual Latent Reasoning

May 21, 2026
Autores: Yifan Dai, Zhenhua Wu, Bohan Zeng, Daili Hua, Jialing Liu, Bozhou Li, Yuran Wang, Chengzhuo Tong, Hao Liang, Xiaochen Ma, Junbo Niu, Tianyu Guo, Yang Shi, Yue Ding, Yiyan Ji, Bingyin Mei, Yushuo Guan, Yuanxing Zhang, Pengfei Wan, Fangcheng Fu, Wentao Zhang
cs.AI

Resumo

O raciocínio conjunto audiovisual é essencial para a compreensão omnimodal, no entanto, os atuais modelos de linguagem multimodal de grande escala (MLLMs) ainda enfrentam dificuldades quando o raciocínio exige evidências refinadas de ambas as modalidades. Uma limitação central é que a cadeia de pensamento (CoT) explícita baseada em texto comprime sinais audiovisuais contínuos em tokens discretos, enfraquecendo o ancoramento temporal e deslocando o raciocínio intermediário em direção a prioridades linguísticas. Argumentamos que um espaço latente unificado é um meio melhor para tal raciocínio, pois preserva informações sensoriais densas enquanto permanece compatível com a geração autoregressiva. Com base nessa percepção, propomos o LatentOmni, uma estrutura de raciocínio cross-modal que intercala raciocínio textual com estados latentes audiovisuais. O LatentOmni introduz supervisão em nível de características para alinhar estados de raciocínio latentes com características sensoriais relevantes para a tarefa e usa a Omni-Sync Position Embedding (OSPE) para manter a consistência temporal entre estados latentes de áudio e visuais. Além disso, construímos o LatentOmni-Instruct-35K, um conjunto de dados de trajetórias de raciocínio intercaladas audiovisuais para supervisionar o raciocínio em espaço latente. A avaliação abrangente em vários benchmarks de raciocínio audiovisual demonstra que o LatentOmni alcança o melhor desempenho entre os modelos de código aberto avaliados e supera consistentemente a linha de base da CoT de texto explícito, apoiando o raciocínio conjunto em espaço latente como um caminho promissor para uma compreensão omnimodal mais forte.
English
Joint audio-visual reasoning is essential for omnimodal understanding, yet current multimodal large language models (MLLMs) still struggle when reasoning requires fine-grained evidence from both modalities. A central limitation is that explicit text-based chain-of-thought (CoT) compresses continuous audio-visual signals into discrete tokens, weakening temporal grounding and shifting intermediate reasoning toward language priors. We argue that a unified latent space is a better medium for such reasoning because it preserves dense sensory information while remaining compatible with autoregressive generation. Based on this insight, we propose LatentOmni, a cross-modal reasoning framework that interleaves textual reasoning with audio-visual latent states. LatentOmni introduces feature-level supervision to align latent reasoning states with task-relevant sensory features and uses Omni-Sync Position Embedding (OSPE) to maintain temporal consistency between latent audio and visual states. We further construct LatentOmni-Instruct-35K, a dataset of audio-visual interleaved reasoning trajectories for supervising latent-space reasoning. Comprehensive evaluation across multiple audio-visual reasoning benchmarks demonstrates that LatentOmni achieves the best performance among the evaluated open-source models and consistently outperforms the Explicit Text CoT baseline, supporting latent-space joint reasoning as a promising path toward stronger omnimodal understanding.