LatentOmni: Repensando la Comprensión Omni-Modal mediante el Razonamiento Latente Audio-Visual Unificado

Resumen

El razonamiento audiovisual conjunto es esencial para la comprensión omnimodal, pero los modelos de lenguaje grandes multimodales (MLLMs) actuales aún tienen dificultades cuando el razonamiento requiere evidencia detallada de ambas modalidades. Una limitación central es que la cadena de pensamiento (CoT) explícita basada en texto comprime las señales audiovisuales continuas en tokens discretos, debilitando el anclaje temporal y desplazando el razonamiento intermedio hacia sesgos lingüísticos. Sostenemos que un espacio latente unificado es un mejor medio para dicho razonamiento porque preserva información sensorial densa mientras sigue siendo compatible con la generación autorregresiva. Basándonos en esta observación, proponemos LatentOmni, un marco de razonamiento intermodal que entrelaza el razonamiento textual con estados latentes audiovisuales. LatentOmni introduce supervisión a nivel de características para alinear los estados de razonamiento latentes con características sensoriales relevantes para la tarea y utiliza la Incrustación de Posición Omni-Sync (OSPE) para mantener la consistencia temporal entre los estados latentes de audio y video. Además, construimos LatentOmni-Instruct-35K, un conjunto de datos de trayectorias de razonamiento entrelazadas audiovisuales para supervisar el razonamiento en el espacio latente. La evaluación exhaustiva en múltiples puntos de referencia de razonamiento audiovisual demuestra que LatentOmni logra el mejor rendimiento entre los modelos de código abierto evaluados y supera consistentemente la línea base de CoT explícito en texto, apoyando el razonamiento conjunto en el espacio latente como una vía prometedora hacia una comprensión omnimodal más sólida.

English

Joint audio-visual reasoning is essential for omnimodal understanding, yet current multimodal large language models (MLLMs) still struggle when reasoning requires fine-grained evidence from both modalities. A central limitation is that explicit text-based chain-of-thought (CoT) compresses continuous audio-visual signals into discrete tokens, weakening temporal grounding and shifting intermediate reasoning toward language priors. We argue that a unified latent space is a better medium for such reasoning because it preserves dense sensory information while remaining compatible with autoregressive generation. Based on this insight, we propose LatentOmni, a cross-modal reasoning framework that interleaves textual reasoning with audio-visual latent states. LatentOmni introduces feature-level supervision to align latent reasoning states with task-relevant sensory features and uses Omni-Sync Position Embedding (OSPE) to maintain temporal consistency between latent audio and visual states. We further construct LatentOmni-Instruct-35K, a dataset of audio-visual interleaved reasoning trajectories for supervising latent-space reasoning. Comprehensive evaluation across multiple audio-visual reasoning benchmarks demonstrates that LatentOmni achieves the best performance among the evaluated open-source models and consistently outperforms the Explicit Text CoT baseline, supporting latent-space joint reasoning as a promising path toward stronger omnimodal understanding.