StyleVLA: 自律走行のための運転スタイル認識型視覚言語行動モデル
StyleVLA: Driving Style-Aware Vision Language Action Model for Autonomous Driving
March 10, 2026
著者: Yuan Gao, Dengyuan Hua, Mattia Piccinini, Finn Rasmus Schäfer, Korbinian Moller, Lin Li, Johannes Betz
cs.AI
要旨
視覚言語モデル(VLM)は、視覚的知覚と言語的推論を架橋する。自動運転(AD)において、この協調はVision Language Action(VLA)モデルを可能にしてきた。VLAモデルは、高次元のマルチモーダル理解を運転行動(一般的には将来軌跡として表現される)に変換する。しかし、既存のVLAモデルは主に汎用的な衝突回避軌跡を生成するに留まる。衝突回避を超えて、多様な運転スタイル(例:スポーティ、快適)に適応することは、パーソナライズドな運転にとって不可欠である。さらに、多くの手法は軌跡生成を単純なトークン予測として扱っており、運動学的に実行不可能な行動を生み出す可能性がある。これらの限界に対処するため、我々は多様で物理的に妥当な運転行動を生成する物理情報を組み込んだVLAフレームワーク、StyleVLAを提案する。軌跡の実現可能性を改善するため、運動学的一貫性制約と連続値回帰ヘッドを組み合わせたハイブリッド損失を導入する。Qwen3-VL-4Bを基盤とするStyleVLAを訓練するため、5つの運転スタイルと自然言語指示に対する正解軌跡を含む、1,200以上のシナリオ、76,000の鳥瞰図(BEV)サンプル、42,000の一人称視点(FPV)サンプルからなる大規模な指示データセットを構築した。実験結果では、4BパラメータのStyleVLAが、プロプライエタリモデル(Gemini-3-Proなど)や最先端のVLAモデルを大きく上回ることを示す。成功率、物理的実現可能性、スタイル順守度を測定する複合運転スコアにおいて、StyleVLAはBEVで0.55、FPVで0.51を達成したのに対し、Gemini-3-Proはそれぞれ0.32および0.35であった。これらの結果は、専門化され、物理情報が組み込まれた軽量モデルが、特定分野のタスクにおいてクローズドソースモデルを凌駕し得ることを示している。
English
Vision Language Models (VLMs) bridge visual perception and linguistic reasoning. In Autonomous Driving (AD), this synergy has enabled Vision Language Action (VLA) models, which translate high-level multimodal understanding into driving behaviors, typically represented as future trajectories. However, existing VLA models mainly generate generic collision-free trajectories. Beyond collision avoidance, adapting to diverse driving styles (e.g., sporty, comfortable) is essential for personalized driving. Moreover, many methods treat trajectory generation as naive token prediction, which can produce kinematically infeasible actions. To address these limitations, we present StyleVLA, a physics-informed VLA framework for generating diverse and physically plausible driving behaviors. We introduce a hybrid loss that combines a kinematic consistency constraint with a continuous regression head to improve trajectory feasibility. To train StyleVLA, built on Qwen3-VL-4B, we construct a large-scale instruction dataset with over 1.2k scenarios, 76k Bird's Eye View (BEV) samples, and 42k First Person View (FPV) samples, with ground-truth trajectories for five driving styles and natural-language instructions. Experiments show that our 4B-parameter StyleVLA significantly outperforms proprietary models (e.g., Gemini-3-Pro) and state-of-the-art VLA models. Using a composite driving score measuring success rate, physical feasibility, and style adherence, StyleVLA achieves 0.55 on BEV and 0.51 on FPV, versus 0.32 and 0.35 for Gemini-3-Pro. These results show that a specialized, physics-informed, lightweight model can surpass closed-source models on domain-specific tasks.