OneVL : Raisonnement et planification latents en une étape avec explication vision-langage

Résumé

Le raisonnement par chaîne de pensée (CoT) est devenu un puissant moteur de prédiction de trajectoire pour la conduite autonome basée sur les VLA, mais sa nature autorégressive impose un coût de latence prohibitif pour un déploiement en temps réel. Les méthodes de CoT latent tentent de combler cet écart en compressant le raisonnement dans des états cachés continus, mais restent systématiquement inférieures à leurs homologues explicites. Nous suggérons que cela est dû à des représentations latentes purement linguistiques qui compressent une abstraction symbolique du monde, plutôt que les dynamiques causales qui régissent réellement la conduite. Ainsi, nous présentons OneVL, un framework unifié VLA et World Model qui achemine le raisonnement via des tokens latents compacts supervisés par des décodeurs auxiliaires doubles. Outre un décodeur linguistique qui reconstruit le CoT textuel, nous introduisons un décodeur de modèle du monde visuel qui prédit les tokens des images futures, forçant l'espace latent à internaliser les dynamiques causales de la géométrie routière, du mouvement des agents et des changements environnementaux. Un pipeline d'entraînement en trois étapes aligne progressivement ces latents avec les objectifs de trajectoire, linguistiques et visuels, garantissant une optimisation conjointe stable. Lors de l'inférence, les décodeurs auxiliaires sont abandonnés et tous les tokens latents sont préremplis en une seule passe parallèle, égalant la vitesse de la prédiction réponse seule. Sur quatre benchmarks, OneVL devient la première méthode de CoT latent à surpasser le CoT explicite, offrant une précision de pointe avec la latence d'une prédiction réponse seule, et fournissant une preuve directe qu'une compression plus serrée, lorsqu'elle est guidée à la fois par une supervision linguistique et par un modèle du monde, produit des représentations plus généralisables qu'un raisonnement verbeux token par token. Page du projet : https://xiaomi-embodied-intelligence.github.io/OneVL

English

Chain-of-Thought (CoT) reasoning has become a powerful driver of trajectory prediction in VLA-based autonomous driving, yet its autoregressive nature imposes a latency cost that is prohibitive for real-time deployment. Latent CoT methods attempt to close this gap by compressing reasoning into continuous hidden states, but consistently fall short of their explicit counterparts. We suggest that this is due to purely linguistic latent representations compressing a symbolic abstraction of the world, rather than the causal dynamics that actually govern driving. Thus, we present OneVL (One-step latent reasoning and planning with Vision-Language explanations), a unified VLA and World Model framework that routes reasoning through compact latent tokens supervised by dual auxiliary decoders. Alongside a language decoder that reconstructs text CoT, we introduce a visual world model decoder that predicts future-frame tokens, forcing the latent space to internalize the causal dynamics of road geometry, agent motion, and environmental change. A three-stage training pipeline progressively aligns these latents with trajectory, language, and visual objectives, ensuring stable joint optimization. At inference, the auxiliary decoders are discarded and all latent tokens are prefilled in a single parallel pass, matching the speed of answer-only prediction. Across four benchmarks, OneVL becomes the first latent CoT method to surpass explicit CoT, delivering state-of-the-art accuracy at answer-only latency, and providing direct evidence that tighter compression, when guided in both language and world-model supervision, produces more generalizable representations than verbose token-by-token reasoning. Project Page: https://xiaomi-embodied-intelligence.github.io/OneVL

OneVL : Raisonnement et planification latents en une étape avec explication vision-langage

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

Résumé

Support