ChatPaper.aiChatPaper

StyleVLA : Modèle Vision-Langage-Action Conscient du Style de Conduite pour la Conduite Autonome

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

March 10, 2026
Auteurs: Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz
cs.AI

Résumé

Les modèles vision-langage (VLM) établissent un pont entre la perception visuelle et le raisonnement linguistique. Dans la conduite autonome (AD), cette synergie a permis le développement de modèles vision-langage-action (VLA), qui traduisent une compréhension multimodale de haut niveau en comportements de conduite, généralement représentés par des trajectoires futures. Cependant, les modèles VLA existants génèrent principalement des trajectoires génériques sans collision. Au-delà de l'évitement de collisions, l'adaptation à différents styles de conduite (par exemple, sportif, confortable) est essentielle pour une conduite personnalisée. De plus, de nombreuses méthodes traitent la génération de trajectoires comme une simple prédiction de tokens, ce qui peut produire des actions cinématiquement irréalisables. Pour résoudre ces limitations, nous présentons StyleVLA, un cadre VLA informé par la physique pour générer des comportements de conduite diversifiés et physiquement plausibles. Nous introduisons une fonction de perte hybride qui combine une contrainte de cohérence cinématique avec une tête de régression continue pour améliorer la faisabilité des trajectoires. Pour entraîner StyleVLA, construit sur Qwen3-VL-4B, nous avons constitué un jeu de données d'instructions à grande échelle avec plus de 1 200 scénarios, 76 000 échantillons en vue de dessus (BEV) et 42 000 échantillons en vue à la première personne (FPV), comprenant des trajectoires de référence pour cinq styles de conduite et des instructions en langage naturel. Les expériences montrent que notre StyleVLA à 4 milliards de paramètres surpasse significativement les modèles propriétaires (par exemple, Gemini-3-Pro) et les modèles VLA de l'état de l'art. En utilisant un score de conduite composite mesurant le taux de réussite, la faisabilité physique et l'adhésion au style, StyleVLA atteint 0,55 sur BEV et 0,51 sur FPV, contre 0,32 et 0,35 pour Gemini-3-Pro. Ces résultats démontrent qu'un modèle spécialisé, informé par la physique et léger, peut surpasser des modèles privateurs sur des tâches spécifiques à un domaine.
English
Vision Language Models (VLMs) bridge visual perception and linguistic reasoning. In Autonomous Driving (AD), this synergy has enabled Vision Language Action (VLA) models, which translate high-level multimodal understanding into driving behaviors, typically represented as future trajectories. However, existing VLA models mainly generate generic collision-free trajectories. Beyond collision avoidance, adapting to diverse driving styles (e.g., sporty, comfortable) is essential for personalized driving. Moreover, many methods treat trajectory generation as naive token prediction, which can produce kinematically infeasible actions. To address these limitations, we present StyleVLA, a physics-informed VLA framework for generating diverse and physically plausible driving behaviors. We introduce a hybrid loss that combines a kinematic consistency constraint with a continuous regression head to improve trajectory feasibility. To train StyleVLA, built on Qwen3-VL-4B, we construct a large-scale instruction dataset with over 1.2k scenarios, 76k Bird's Eye View (BEV) samples, and 42k First Person View (FPV) samples, with ground-truth trajectories for five driving styles and natural-language instructions. Experiments show that our 4B-parameter StyleVLA significantly outperforms proprietary models (e.g., Gemini-3-Pro) and state-of-the-art VLA models. Using a composite driving score measuring success rate, physical feasibility, and style adherence, StyleVLA achieves 0.55 on BEV and 0.51 on FPV, versus 0.32 and 0.35 for Gemini-3-Pro. These results show that a specialized, physics-informed, lightweight model can surpass closed-source models on domain-specific tasks.
PDF01March 13, 2026