OneVL: Ragionamento e Pianificazione Latente in un Singolo Passo con Spiegazione Visivo-Linguistica
OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation
April 20, 2026
Autori: Jinghui Lu, Jiayi Guan, Zhijian Huang, Jinlong Li, Guang Li, Lingdong Kong, Yingyan Li, Han Wang, Shaoqing Xu, Yuechen Luo, Fang Li, Chenxu Dang, Junli Wang, Tao Xu, Jing Wu, Jianhua Wu, Xiaoshuai Hao, Wen Zhang, Tianyi Jiang, Lingfeng Zhang, Lei Zhou, Yingbo Tang, Jie Wang, Yinfeng Gao, Xizhou Bu, Haochen Tian, Yihang Qiu, Feiyang Jia, Lin Liu, Yigu Ge, Hanbing Li, Yuannan Shen, Jianwei Cui, Hongwei Xie, Bing Wang, Haiyang Sun, Jingwei Zhao, Jiahui Huang, Pei Liu, Zeyu Zhu, Yuncheng Jiang, Zibin Guo, Chuhong Gong, Hanchao Leng, Kun Ma, Naiyang Wang, Guang Chen, Kuiyuan Yang, Hangjun Ye, Long Chen
cs.AI
Abstract
Il ragionamento a catena di pensieri (CoT) è diventato un potente motore per la previsione di traiettorie nella guida autonoma basata su VLA (Vision-Language-Action), ma la sua natura autoregressiva impone un costo di latenza proibitivo per il dispiegamento in tempo reale. I metodi CoT latenti tentano di colmare questo divario comprimendo il ragionamento in stati nascosti continui, ma risultano costantemente inferiori alle loro controparti esplicite. Suggeriamo che ciò sia dovuto al fatto che le rappresentazioni latenti puramente linguistiche comprimono un'astrazione simbolica del mondo, piuttosto che le dinamiche causali che effettivamente governano la guida. Pertanto, presentiamo OneVL (Ragionamento e pianificazione latente one-step con spiegazioni visione-linguaggio), un framework unificato VLA e World Model che instrada il ragionamento attraverso token latenti compatti supervisionati da decoder ausiliari duali. Accanto a un decoder linguistico che ricostruisce il CoT testuale, introduciamo un decoder di world model visivo che predice i token dei frame futuri, forzando lo spazio latente a internalizzare le dinamiche causali della geometria stradale, del movimento degli agenti e del cambiamento ambientale. Una pipeline di addestramento in tre fasi allinea progressivamente questi stati latenti con obiettivi di traiettoria, linguaggio e visione, garantendo un'ottimizzazione congiunta stabile. In fase di inferenza, i decoder ausiliari vengono scartati e tutti i token latenti sono precompilati in un unico passaggio parallelo, eguagliando la velocità della predizione della sola risposta. Su quattro benchmark, OneVL diventa il primo metodo CoT latente a superare il CoT esplicito, fornendo un'accuratezza allo stato dell'arte con la latenza della sola risposta, e fornendo evidenza diretta che una compressione più stretta, quando guidata sia dalla supervisione linguistica che del world model, produce rappresentazioni più generalizzabili del ragionamento verboso token-per-token. Pagina del progetto: https://xiaomi-embodied-intelligence.github.io/OneVL
English
Chain-of-Thought (CoT) reasoning has become a powerful driver of trajectory prediction in VLA-based autonomous driving, yet its autoregressive nature imposes a latency cost that is prohibitive for real-time deployment. Latent CoT methods attempt to close this gap by compressing reasoning into continuous hidden states, but consistently fall short of their explicit counterparts. We suggest that this is due to purely linguistic latent representations compressing a symbolic abstraction of the world, rather than the causal dynamics that actually govern driving. Thus, we present OneVL (One-step latent reasoning and planning with Vision-Language explanations), a unified VLA and World Model framework that routes reasoning through compact latent tokens supervised by dual auxiliary decoders. Alongside a language decoder that reconstructs text CoT, we introduce a visual world model decoder that predicts future-frame tokens, forcing the latent space to internalize the causal dynamics of road geometry, agent motion, and environmental change. A three-stage training pipeline progressively aligns these latents with trajectory, language, and visual objectives, ensuring stable joint optimization. At inference, the auxiliary decoders are discarded and all latent tokens are prefilled in a single parallel pass, matching the speed of answer-only prediction. Across four benchmarks, OneVL becomes the first latent CoT method to surpass explicit CoT, delivering state-of-the-art accuracy at answer-only latency, and providing direct evidence that tighter compression, when guided in both language and world-model supervision, produces more generalizable representations than verbose token-by-token reasoning. Project Page: https://xiaomi-embodied-intelligence.github.io/OneVL