OneVL: Raciocínio e Planeamento Latente em Um Passo com Explicação Visão-Linguagem

Resumo

O raciocínio em Cadeia de Pensamento (CoT) tornou-se um poderoso impulsionador da previsão de trajetória na condução autónoma baseada em VLA, mas a sua natureza autoregressiva impõe um custo de latência proibitivo para implantação em tempo real. Os métodos de CoT latente tentam colmatar esta lacuna comprimindo o raciocínio em estados ocultos contínuos, mas ficam consistentemente aquém das suas contrapartes explícitas. Sugerimos que isto se deve a representações latentes puramente linguísticas comprimirem uma abstração simbólica do mundo, em vez das dinâmicas causais que realmente governam a condução. Assim, apresentamos o OneVL (Raciocínio e planeamento latente em um passo com explicações visão-linguagem), uma estrutura unificada de VLA e Modelo Mundial que encaminha o raciocínio através de tokens latentes compactos supervisionados por descodificadores auxiliares duplos. Paralelamente a um descodificador de linguagem que reconstrói o CoT textual, introduzimos um descodificador de modelo visual mundial que prevê tokens de frames futuros, forçando o espaço latente a internalizar as dinâmicas causais da geometria da estrada, movimento de agentes e mudanças ambientais. Um pipeline de treino em três etapas alinha progressivamente estes elementos latentes com objetivos de trajetória, linguagem e visão, garantindo uma otimização conjunta estável. Na inferência, os descodificadores auxiliares são descartados e todos os tokens latentes são pré-preenchidos num único passo paralelo, igualando a velocidade da previsão apenas de resposta. Em quatro benchmarks, o OneVL torna-se o primeiro método de CoT latente a superar o CoT explícito, oferecendo precisão de ponta à latência de apenas resposta, e fornecendo evidência direta de que uma compressão mais apertada, quando orientada por supervisão tanto de linguagem como de modelo mundial, produz representações mais generalizáveis do que o raciocínio verboso token-a-token. Página do Projeto: https://xiaomi-embodied-intelligence.github.io/OneVL

English

Chain-of-Thought (CoT) reasoning has become a powerful driver of trajectory prediction in VLA-based autonomous driving, yet its autoregressive nature imposes a latency cost that is prohibitive for real-time deployment. Latent CoT methods attempt to close this gap by compressing reasoning into continuous hidden states, but consistently fall short of their explicit counterparts. We suggest that this is due to purely linguistic latent representations compressing a symbolic abstraction of the world, rather than the causal dynamics that actually govern driving. Thus, we present OneVL (One-step latent reasoning and planning with Vision-Language explanations), a unified VLA and World Model framework that routes reasoning through compact latent tokens supervised by dual auxiliary decoders. Alongside a language decoder that reconstructs text CoT, we introduce a visual world model decoder that predicts future-frame tokens, forcing the latent space to internalize the causal dynamics of road geometry, agent motion, and environmental change. A three-stage training pipeline progressively aligns these latents with trajectory, language, and visual objectives, ensuring stable joint optimization. At inference, the auxiliary decoders are discarded and all latent tokens are prefilled in a single parallel pass, matching the speed of answer-only prediction. Across four benchmarks, OneVL becomes the first latent CoT method to surpass explicit CoT, delivering state-of-the-art accuracy at answer-only latency, and providing direct evidence that tighter compression, when guided in both language and world-model supervision, produces more generalizable representations than verbose token-by-token reasoning. Project Page: https://xiaomi-embodied-intelligence.github.io/OneVL

OneVL: Raciocínio e Planeamento Latente em Um Passo com Explicação Visão-Linguagem

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

Resumo

Support