StyleVLA: Modello Visione-Linguaggio-Azione con Consapevolezza dello Stile di Guida per la Guida Autonoma

Abstract

I modelli visione-linguaggio (VLM) colmano la percezione visiva e il ragionamento linguistico. Nell'ambito della guida autonoma (AD), questa sinergia ha dato vita ai modelli Vision Language Action (VLA), che traducono una comprensione multimodale di alto livello in comportamenti di guida, tipicamente rappresentati come traiettorie future. Tuttavia, i modelli VLA esistenti generano principalmente traiettorie generiche prive di collisioni. Oltre all'evitamento delle collisioni, l'adattamento a diversi stili di guida (ad esempio, sportivo, confortevole) è essenziale per una guida personalizzata. Inoltre, molti metodi trattano la generazione di traiettorie come una semplice previsione di token, che può produrre azioni cinematicamente non fattibili. Per affrontare queste limitazioni, presentiamo StyleVLA, un framework VLA informato dalla fisica per generare comportamenti di guida diversificati e fisicamente plausibili. Introduciamo una loss ibrida che combina un vincolo di consistenza cinematica con un head di regressione continua per migliorare la fattibilità della traiettoria. Per addestrare StyleVLA, basato su Qwen3-VL-4B, abbiamo costruito un dataset di istruzioni su larga scala con oltre 1.2k scenari, 76k campioni in vista dall'alto (BEV) e 42k campiani in prima persona (FPV), con traiettorie ground-truth per cinque stili di guida e istruzioni in linguaggio naturale. Gli esperimenti mostrano che il nostro StyleVLA da 4 miliardi di parametri supera significativamente modelli proprietari (ad esempio, Gemini-3-Pro) e modelli VLA all'avanguardia. Utilizzando un punteggio di guida composito che misura il tasso di successo, la fattibilità fisica e l'aderenza allo stile, StyleVLA raggiunge 0.55 su BEV e 0.51 su FPV, rispetto a 0.32 e 0.35 di Gemini-3-Pro. Questi risultati dimostrano che un modello specializzato, informato dalla fisica e leggero può superare modelli closed-source su compiti specifici del dominio.

English

Vision Language Models (VLMs) bridge visual perception and linguistic reasoning. In Autonomous Driving (AD), this synergy has enabled Vision Language Action (VLA) models, which translate high-level multimodal understanding into driving behaviors, typically represented as future trajectories. However, existing VLA models mainly generate generic collision-free trajectories. Beyond collision avoidance, adapting to diverse driving styles (e.g., sporty, comfortable) is essential for personalized driving. Moreover, many methods treat trajectory generation as naive token prediction, which can produce kinematically infeasible actions. To address these limitations, we present StyleVLA, a physics-informed VLA framework for generating diverse and physically plausible driving behaviors. We introduce a hybrid loss that combines a kinematic consistency constraint with a continuous regression head to improve trajectory feasibility. To train StyleVLA, built on Qwen3-VL-4B, we construct a large-scale instruction dataset with over 1.2k scenarios, 76k Bird's Eye View (BEV) samples, and 42k First Person View (FPV) samples, with ground-truth trajectories for five driving styles and natural-language instructions. Experiments show that our 4B-parameter StyleVLA significantly outperforms proprietary models (e.g., Gemini-3-Pro) and state-of-the-art VLA models. Using a composite driving score measuring success rate, physical feasibility, and style adherence, StyleVLA achieves 0.55 on BEV and 0.51 on FPV, versus 0.32 and 0.35 for Gemini-3-Pro. These results show that a specialized, physics-informed, lightweight model can surpass closed-source models on domain-specific tasks.

StyleVLA: Modello Visione-Linguaggio-Azione con Consapevolezza dello Stile di Guida per la Guida Autonoma

StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving

Abstract

Support