SimVLA: 로봇 매니퓰레이션을 위한 간단한 VLA 베이스라인
SimVLA: A Simple VLA Baseline for Robotic Manipulation
February 20, 2026
저자: Yuankai Luo, Woping Chen, Tong Liang, Baiqiao Wang, Zhenguo Li
cs.AI
초록
비전-언어-행동(VLA) 모델은 대규모 사전 훈련을 활용하여 강력한 성능을 달성하는 범용 로봇 매니퓰레이션을 위한 유망한 패러다임으로 부상했습니다. 해당 분야는 추가적인 공간 사전 지식과 다양한 아키텍처 혁신을 통해 빠르게 발전해 왔습니다. 그러나 이러한 진보는 종종 다양한 훈련 방법과 구현 세부 사항을 동반하는데, 이는 경험적 성능 향상의 정확한 원인을 규명하기 어렵게 만들 수 있습니다. 본 연구에서는 VLA 연구를 위한 투명한 기준점을 확립하기 위해 간소화된 기준 모델(baseline)인 SimVLA를 소개합니다. 인식과 제어를 엄격히 분리하고, 표준 비전-언어 백본과 경량 행동 헤드를 사용하며, 중요한 훈련 동역학을 표준화함으로써, 최소한의 설계로도 최첨단 성능을 달성할 수 있음을 보여줍니다. 단 0.5B개의 매개변수만을 가진 SimVLA는 로봇 사전 훈련 없이도 표준 시뮬레이션 벤치마크에서 수십억 개의 매개변수를 가진 모델들을 능가합니다. 또한 SimVLA는 pi0.5 대비 실물 로봇 성능에서도 동등한 수준에 도달합니다. 우리의 결과는 SimVLA를 향후 아키텍처 혁신에 따른 경험적 이득을 명확히 귀속시킬 수 있는 강력하고 재현 가능한 기준 모델로 입증합니다. 웹사이트: https://frontierrobo.github.io/SimVLA
English
Vision-Language-Action (VLA) models have emerged as a promising paradigm for general-purpose robotic manipulation, leveraging large-scale pre-training to achieve strong performance. The field has rapidly evolved with additional spatial priors and diverse architectural innovations. However, these advancements are often accompanied by varying training recipes and implementation details, which can make it challenging to disentangle the precise source of empirical gains. In this work, we introduce SimVLA, a streamlined baseline designed to establish a transparent reference point for VLA research. By strictly decoupling perception from control, using a standard vision-language backbone and a lightweight action head, and standardizing critical training dynamics, we demonstrate that a minimal design can achieve state-of-the-art performance. Despite having only 0.5B parameters, SimVLA outperforms multi-billion-parameter models on standard simulation benchmarks without robot pretraining. SimVLA also reaches on-par real-robot performance compared to pi0.5. Our results establish SimVLA as a robust, reproducible baseline that enables clear attribution of empirical gains to future architectural innovations. Website: https://frontierrobo.github.io/SimVLA