OneVL: Einstufiges latentes Schließen und Planen mit visuell-sprachlicher Erklärung

Zusammenfassung

Chain-of-Thought (CoT)-Reasoning hat sich zu einem wichtigen Treiber für die Trajektorienvorhersage in der VLA-basierten autonomen Fahrzeugführung entwickelt, doch ihre autoregressive Natur verursacht Latenzen, die für einen Echtzeiteinsatz zu hoch sind. Latente CoT-Methoden versuchen diese Lücke zu schließen, indem sie die Schlussfolgerung in kontinuierliche verborgene Zustände komprimieren, bleiben dabei jedoch stets hinter ihren expliziten Gegenstücken zurück. Wir vermuten, dass dies daran liegt, dass rein sprachlich latente Repräsentationen eine symbolische Abstraktion der Welt komprimieren, anstatt die kausalen Dynamiken, die das Fahrverhalten tatsächlich steuern. Daher präsentieren wir OneVL (One-step latent reasoning and planning with Vision-Language explanations), ein vereinheitlichtes VLA- und Weltmodell-Framework, das die Schlussfolgerung durch kompakte latente Tokens leitet, die von dualen Hilfs-Decodern überwacht werden. Neben einem Sprach-Decoder, der den textuellen CoT rekonstruiert, führen wir einen visuellen Weltmodell-Decoder ein, der zukünftige Bild-Tokens vorhersagt und so den latenten Raum zwingt, die kausalen Dynamiken von Straßengeometrie, Agentenbewegung und Umweltveränderungen zu internalisieren. Eine dreistufige Trainingspipeline richtet diese latenten Zustände progressiv an Trajektorien-, Sprach- und Bildzielen aus und gewährleistet eine stabile gemeinsame Optimierung. Zur Inferenzzeit werden die Hilfs-Decoder entfernt und alle latenten Tokens in einem einzigen parallelen Durchgang vorab gefüllt, was der Geschwindigkeit einer reinen Antwortvorhersage entspricht. In vier Benchmarks ist OneVL die erste latente CoT-Methode, die explizite CoT übertrifft, state-of-the-art Genauigkeit bei Latenzen wie bei reinen Antworten liefert und den direkten Beweis erbringt, dass eine stärkere Komprimierung – wenn sie durch Sprach- und Weltmodell-Aufsicht geleitet wird – generalisierbarere Repräsentationen erzeugt als ausführliche Token-für-Token-Schlussfolgerungen. Projektseite: https://xiaomi-embodied-intelligence.github.io/OneVL

English

Chain-of-Thought (CoT) reasoning has become a powerful driver of trajectory prediction in VLA-based autonomous driving, yet its autoregressive nature imposes a latency cost that is prohibitive for real-time deployment. Latent CoT methods attempt to close this gap by compressing reasoning into continuous hidden states, but consistently fall short of their explicit counterparts. We suggest that this is due to purely linguistic latent representations compressing a symbolic abstraction of the world, rather than the causal dynamics that actually govern driving. Thus, we present OneVL (One-step latent reasoning and planning with Vision-Language explanations), a unified VLA and World Model framework that routes reasoning through compact latent tokens supervised by dual auxiliary decoders. Alongside a language decoder that reconstructs text CoT, we introduce a visual world model decoder that predicts future-frame tokens, forcing the latent space to internalize the causal dynamics of road geometry, agent motion, and environmental change. A three-stage training pipeline progressively aligns these latents with trajectory, language, and visual objectives, ensuring stable joint optimization. At inference, the auxiliary decoders are discarded and all latent tokens are prefilled in a single parallel pass, matching the speed of answer-only prediction. Across four benchmarks, OneVL becomes the first latent CoT method to surpass explicit CoT, delivering state-of-the-art accuracy at answer-only latency, and providing direct evidence that tighter compression, when guided in both language and world-model supervision, produces more generalizable representations than verbose token-by-token reasoning. Project Page: https://xiaomi-embodied-intelligence.github.io/OneVL

OneVL: Einstufiges latentes Schließen und Planen mit visuell-sprachlicher Erklärung

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

Zusammenfassung

Support