VLSA: プラグアンドプレイ安全制約層を備えた視覚-言語-行動モデル
VLSA: Vision-Language-Action Models with Plug-and-Play Safety Constraint Layer
December 9, 2025
著者: Songqiao Hu, Zeyi Liu, Shuang Liu, Jun Cen, Zihan Meng, Xiao He
cs.AI
要旨
Vision-Language-Action(VLA)モデルは、多様なロボットマニピュレーションタスクにわたる汎化能力において顕著な性能を実証している。しかし、物理的相互作用における潜在的な衝突防止をはじめ、特にタスク準拠と安全性保証の同時達成が極めて重要となる非構造化環境へのこれらのモデルの導入は、依然として課題である。本研究では、AEGISと命名したVision-Language-Safe Action(VLSA)アーキテクチャを提案する。これは、制御バリア関数を用いて定式化されたプラグアンドプレイ型の安全制約(SC)層を備える。AEGISは既存のVLAモデルと直接統合され、理論的保証付きで安全性を向上させるとともに、元来の指示追従性能を維持する。当アーキテクチャの有効性を評価するため、空間的複雑度と障害物介入の程度が異なる特徴を持つ個別のマニピュレーションシナリオにわたる、包括的な安全批判的ベンチマークSafeLIBEROを構築した。大規模な実験により、本手法が最先端のベースライン手法を凌駕することを実証した。特に、AEGISは障害物回避率で59.16%の向上を達成し、同時にタスク実行成功率を17.25%大幅に向上させた。再現性及び将来の研究の発展に資するため、コード、モデル、ベンチマークデータセットをhttps://vlsa-aegis.github.io/ で公開している。
English
Vision-Language-Action (VLA) models have demonstrated remarkable capabilities in generalizing across diverse robotic manipulation tasks. However, deploying these models in unstructured environments remains challenging due to the critical need for simultaneous task compliance and safety assurance, particularly in preventing potential collisions during physical interactions. In this work, we introduce a Vision-Language-Safe Action (VLSA) architecture, named AEGIS, which contains a plug-and-play safety constraint (SC) layer formulated via control barrier functions. AEGIS integrates directly with existing VLA models to improve safety with theoretical guarantees, while maintaining their original instruction-following performance. To evaluate the efficacy of our architecture, we construct a comprehensive safety-critical benchmark SafeLIBERO, spanning distinct manipulation scenarios characterized by varying degrees of spatial complexity and obstacle intervention. Extensive experiments demonstrate the superiority of our method over state-of-the-art baselines. Notably, AEGIS achieves a 59.16% improvement in obstacle avoidance rate while substantially increasing the task execution success rate by 17.25%. To facilitate reproducibility and future research, we make our code, models, and the benchmark datasets publicly available at https://vlsa-aegis.github.io/.