OneVL: Однопроходное латентное рассуждение и планирование с визуально-языковым объяснением

Аннотация

Метод рассуждений «цепочка мыслей» (CoT) стал мощным инструментом для прогнозирования траекторий в автономном вождении на основе VLA, однако его авторегрессионная природа приводит к задержкам, неприемлемым для развертывания в реальном времени. Методы латентного CoT пытаются сократить этот разрыв, сжимая рассуждения в непрерывные скрытые состояния, но стабильно уступают своим явным аналогам. Мы предполагаем, что это связано с тем, что чисто лингвистические латентные представления сжимают символическую абстракцию мира, а не причинно-следственные динамики, которые фактически управляют вождением. Таким образом, мы представляем OneVL — унифицированную структуру VLA и Мировой Модели, которая направляет рассуждения через компактные латентные токены, контролируемые двумя вспомогательными декодерами. Наряду с языковым декодером, восстанавливающим текстовую CoT, мы вводим декодер визуальной мировой модели, который предсказывает токены будущих кадров, заставляя латентное пространство усваивать причинно-следственные динамики дорожной геометрии, движения агентов и изменений окружающей среды. Трехэтапный конвейер обучения постепенно выравнивает эти латентные переменные с целями траектории, языка и визуализации, обеспечивая стабильную совместную оптимизацию. На этапе вывода вспомогательные декодеры отбрасываются, и все латентные токены заполняются за один параллельный проход, что соответствует скорости прогнозирования только ответа. На четырех тестовых наборах OneVL становится первым методом латентного CoT, превзошедшим явный CoT, демонстрируя наивысшую точность при задержке, характерной для прогнозирования только ответа, и предоставляя прямое доказательство того, что более плотное сжатие, направляемое как языковым, так и мировым контролем, порождает более обобщаемые представления, чем подробное пошаговое рассуждение. Страница проекта: https://xiaomi-embodied-intelligence.github.io/OneVL

English

Chain-of-Thought (CoT) reasoning has become a powerful driver of trajectory prediction in VLA-based autonomous driving, yet its autoregressive nature imposes a latency cost that is prohibitive for real-time deployment. Latent CoT methods attempt to close this gap by compressing reasoning into continuous hidden states, but consistently fall short of their explicit counterparts. We suggest that this is due to purely linguistic latent representations compressing a symbolic abstraction of the world, rather than the causal dynamics that actually govern driving. Thus, we present OneVL (One-step latent reasoning and planning with Vision-Language explanations), a unified VLA and World Model framework that routes reasoning through compact latent tokens supervised by dual auxiliary decoders. Alongside a language decoder that reconstructs text CoT, we introduce a visual world model decoder that predicts future-frame tokens, forcing the latent space to internalize the causal dynamics of road geometry, agent motion, and environmental change. A three-stage training pipeline progressively aligns these latents with trajectory, language, and visual objectives, ensuring stable joint optimization. At inference, the auxiliary decoders are discarded and all latent tokens are prefilled in a single parallel pass, matching the speed of answer-only prediction. Across four benchmarks, OneVL becomes the first latent CoT method to surpass explicit CoT, delivering state-of-the-art accuracy at answer-only latency, and providing direct evidence that tighter compression, when guided in both language and world-model supervision, produces more generalizable representations than verbose token-by-token reasoning. Project Page: https://xiaomi-embodied-intelligence.github.io/OneVL

OneVL: Однопроходное латентное рассуждение и планирование с визуально-языковым объяснением

OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

Аннотация

Support