VLSA: 플러그 앤 플레이 안전 제약 계층을 갖춘 비전-언어-행동 모델
VLSA: Vision-Language-Action Models with Plug-and-Play Safety Constraint Layer
December 9, 2025
저자: Songqiao Hu, Zeyi Liu, Shuang Liu, Jun Cen, Zihan Meng, Xiao He
cs.AI
초록
비전-언어-행동(Vision-Language-Action, VLA) 모델은 다양한 로봇 매니퓰레이션 작업에서 일반화하는 뛰어난 능력을 입증했습니다. 그러나 물리적 상호작용 중 발생 가능한 충돌을 방지하는 등, 작업 준수와 안전 보장을 동시에 확보해야 하는 비구조화 환경에서 이러한 모델을 배포하는 것은 여전히 과제로 남아 있습니다. 본 연구에서는 제어 장벽 함수(control barrier functions)를 통해 공식화된 플러그 앤 플레이(plug-and-play) 안전 제약(Safety Constraint, SC) 계층을 포함하는 AEGIS라는 비전-언어-안전 행동(Vision-Language-Safe Action, VLSA) 아키텍처를 소개합니다. AEGIS는 기존 VLA 모델과 직접 통합되어 이론적 보장 하에 안전성을 향상시키면서도 원래의 지시 따르기 성능을 유지합니다. 우리 아키텍처의 효용성을 평가하기 위해 공간적 복잡성과 장애물 개입 정도가 다른 다양한 매니퓰레이션 시나리오를 아우르는 포괄적인 안전 중점 벤치마크인 SafeLIBERO를 구축했습니다. 대규모 실험을 통해 우리의 방법이 최첨단 베이스라인 대비 우수함을 입증했습니다. 특히 AEGIS는 장애물 회피율에서 59.16%의 향상을 달성하는 동시에 작업 실행 성공률을 17.25% 크게 높였습니다. 재현성과 향후 연구를 위해 코드, 모델 및 벤치마크 데이터 세트를 https://vlsa-aegis.github.io/ 에 공개합니다.
English
Vision-Language-Action (VLA) models have demonstrated remarkable capabilities in generalizing across diverse robotic manipulation tasks. However, deploying these models in unstructured environments remains challenging due to the critical need for simultaneous task compliance and safety assurance, particularly in preventing potential collisions during physical interactions. In this work, we introduce a Vision-Language-Safe Action (VLSA) architecture, named AEGIS, which contains a plug-and-play safety constraint (SC) layer formulated via control barrier functions. AEGIS integrates directly with existing VLA models to improve safety with theoretical guarantees, while maintaining their original instruction-following performance. To evaluate the efficacy of our architecture, we construct a comprehensive safety-critical benchmark SafeLIBERO, spanning distinct manipulation scenarios characterized by varying degrees of spatial complexity and obstacle intervention. Extensive experiments demonstrate the superiority of our method over state-of-the-art baselines. Notably, AEGIS achieves a 59.16% improvement in obstacle avoidance rate while substantially increasing the task execution success rate by 17.25%. To facilitate reproducibility and future research, we make our code, models, and the benchmark datasets publicly available at https://vlsa-aegis.github.io/.