ChatPaper.aiChatPaper

OneVL: Razonamiento y Planificación Latente en un Solo Paso con Explicación Visión-Lenguaje

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

April 20, 2026
Autores: Jinghui Lu, Jiayi Guan, Zhijian Huang, Jinlong Li, Guang Li, Lingdong Kong, Yingyan Li, Han Wang, Shaoqing Xu, Yuechen Luo, Fang Li, Chenxu Dang, Junli Wang, Tao Xu, Jing Wu, Jianhua Wu, Xiaoshuai Hao, Wen Zhang, Tianyi Jiang, Lingfeng Zhang, Lei Zhou, Yingbo Tang, Jie Wang, Yinfeng Gao, Xizhou Bu, Haochen Tian, Yihang Qiu, Feiyang Jia, Lin Liu, Yigu Ge, Hanbing Li, Yuannan Shen, Jianwei Cui, Hongwei Xie, Bing Wang, Haiyang Sun, Jingwei Zhao, Jiahui Huang, Pei Liu, Zeyu Zhu, Yuncheng Jiang, Zibin Guo, Chuhong Gong, Hanchao Leng, Kun Ma, Naiyang Wang, Guang Chen, Kuiyuan Yang, Hangjun Ye, Long Chen
cs.AI

Resumen

El razonamiento de Cadena de Pensamiento (CoT) se ha convertido en un potente impulsor de la predicción de trayectorias en la conducción autónoma basada en VLA (Asistentes de Lenguaje Visual), aunque su naturaleza autorregresiva impone un coste de latencia prohibitivo para el despliegue en tiempo real. Los métodos de CoT Latente intentan cerrar esta brecha comprimiendo el razonamiento en estados ocultos continuos, pero consistentemente se quedan por detrás de sus contrapartes explícitas. Sugerimos que esto se debe a que las representaciones latentes puramente lingüísticas comprimen una abstracción simbólica del mundo, en lugar de las dinámicas causales que realmente gobiernan la conducción. Por ello, presentamos OneVL (Razonamiento y planificación latente en un solo paso con explicaciones de Visión-Lenguaje), un marco unificado de VLA y Modelo Mundial que canaliza el razonamiento a través de tokens latentes compactos supervisados por decodificadores auxiliares duales. Junto a un decodificador de lenguaje que reconstruye el CoT textual, introducimos un decodificador de modelo mundial visual que predice tokens de frames futuros, forzando al espacio latente a internalizar las dinámicas causales de la geometría vial, el movimiento de agentes y el cambio ambiental. Una canalización de entrenamiento en tres etapas alinea progresivamente estos latentes con objetivos de trayectoria, lenguaje y visión, asegurando una optimización conjunta estable. En la inferencia, los decodificadores auxiliares se descartan y todos los tokens latentes se precargan en una única pasada paralela, igualando la velocidad de la predicción de solo-respuesta. En cuatro benchmarks, OneVL se convierte en el primer método de CoT Latente en superar al CoT explícito, ofreciendo una precisión de vanguardia con la latencia de solo-respuesta, y proporcionando evidencia directa de que una compresión más ajustada, cuando se guía con supervisión tanto de lenguaje como de modelo mundial, produce representaciones más generalizables que el razonamiento token-por-token verboso. Página del proyecto: https://xiaomi-embodied-intelligence.github.io/OneVL
English
Chain-of-Thought (CoT) reasoning has become a powerful driver of trajectory prediction in VLA-based autonomous driving, yet its autoregressive nature imposes a latency cost that is prohibitive for real-time deployment. Latent CoT methods attempt to close this gap by compressing reasoning into continuous hidden states, but consistently fall short of their explicit counterparts. We suggest that this is due to purely linguistic latent representations compressing a symbolic abstraction of the world, rather than the causal dynamics that actually govern driving. Thus, we present OneVL (One-step latent reasoning and planning with Vision-Language explanations), a unified VLA and World Model framework that routes reasoning through compact latent tokens supervised by dual auxiliary decoders. Alongside a language decoder that reconstructs text CoT, we introduce a visual world model decoder that predicts future-frame tokens, forcing the latent space to internalize the causal dynamics of road geometry, agent motion, and environmental change. A three-stage training pipeline progressively aligns these latents with trajectory, language, and visual objectives, ensuring stable joint optimization. At inference, the auxiliary decoders are discarded and all latent tokens are prefilled in a single parallel pass, matching the speed of answer-only prediction. Across four benchmarks, OneVL becomes the first latent CoT method to surpass explicit CoT, delivering state-of-the-art accuracy at answer-only latency, and providing direct evidence that tighter compression, when guided in both language and world-model supervision, produces more generalizable representations than verbose token-by-token reasoning. Project Page: https://xiaomi-embodied-intelligence.github.io/OneVL
PDF683April 22, 2026