StyleVLA: Stijlbewust Visie-Taal-Actie Model voor Autonoom Rijden

Samenvatting

Vision Language Models (VLMs) vormen een brug tussen visuele perceptie en linguïstisch redeneren. In autonoom rijden (Autonomous Driving, AD) heeft deze synergie geleid tot Vision Language Action (VLA) modellen, die hoogwaardig multimodaal begrip vertalen naar rijgedrag, typisch voorgesteld als toekomstige trajecten. Echter, bestaande VLA-modellen genereren voornamelijk generieke, botsingsvrije trajecten. Naast het vermijden van botsingen is aanpassing aan diverse rijstijlen (bijv. sportief, comfortabel) essentieel voor gepersonaliseerd rijden. Bovendien behandelen veel methodes trajectgeneratie als een naïeve tokenvoorspelling, wat kinematisch onuitvoerbare acties kan opleveren. Om deze beperkingen aan te pakken, presenteren we StyleVLA, een physics-informed VLA-raamwerk voor het genereren van diverse en fysisch plausibele rijgedragingen. We introduceren een hybride verliesfunctie die een kinematische consistentiebeperking combineert met een continue regressie-head om de haalbaarheid van trajecten te verbeteren. Om StyleVLA, gebaseerd op Qwen3-VL-4B, te trainen, construeren we een grootschalige instructiedataset met meer dan 1.2k scenario's, 76k Bird's Eye View (BEV) samples en 42k First Person View (FPV) samples, met ground-truth trajecten voor vijf rijstijlen en natuurlijktaalinstructies. Experimenten tonen aan dat onze 4B-parameter StyleVLA significant beter presteert dan propriëtaire modellen (zoals Gemini-3-Pro) en state-of-the-art VLA-modellen. Gebruikmakend van een samengestelde rijscore die slagingspercentage, fysische haalbaarheid en stijltrouw meet, behaalt StyleVLA 0.55 op BEV en 0.51 op FPV, tegenover 0.32 en 0.35 voor Gemini-3-Pro. Deze resultaten tonen aan dat een gespecialiseerd, physics-informed, lichtgewicht model gesloten modellen kan overtreffen op domeinspecifieke taken.

English

Vision Language Models (VLMs) bridge visual perception and linguistic reasoning. In Autonomous Driving (AD), this synergy has enabled Vision Language Action (VLA) models, which translate high-level multimodal understanding into driving behaviors, typically represented as future trajectories. However, existing VLA models mainly generate generic collision-free trajectories. Beyond collision avoidance, adapting to diverse driving styles (e.g., sporty, comfortable) is essential for personalized driving. Moreover, many methods treat trajectory generation as naive token prediction, which can produce kinematically infeasible actions. To address these limitations, we present StyleVLA, a physics-informed VLA framework for generating diverse and physically plausible driving behaviors. We introduce a hybrid loss that combines a kinematic consistency constraint with a continuous regression head to improve trajectory feasibility. To train StyleVLA, built on Qwen3-VL-4B, we construct a large-scale instruction dataset with over 1.2k scenarios, 76k Bird's Eye View (BEV) samples, and 42k First Person View (FPV) samples, with ground-truth trajectories for five driving styles and natural-language instructions. Experiments show that our 4B-parameter StyleVLA significantly outperforms proprietary models (e.g., Gemini-3-Pro) and state-of-the-art VLA models. Using a composite driving score measuring success rate, physical feasibility, and style adherence, StyleVLA achieves 0.55 on BEV and 0.51 on FPV, versus 0.32 and 0.35 for Gemini-3-Pro. These results show that a specialized, physics-informed, lightweight model can surpass closed-source models on domain-specific tasks.

StyleVLA: Stijlbewust Visie-Taal-Actie Model voor Autonoom Rijden

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Samenvatting

Support