ChatPaper.aiChatPaper

VLA-0: 제로 수정으로 최첨단 VLA 구축하기

VLA-0: Building State-of-the-Art VLAs with Zero Modification

October 15, 2025
저자: Ankit Goyal, Hugo Hadfield, Xuning Yang, Valts Blukis, Fabio Ramos
cs.AI

초록

비전-언어-행동 모델(VLAs)은 범용 로봇 조작을 가능하게 하는 데 있어 엄청난 잠재력을 가지고 있습니다. 그러나 이를 구축하는 최선의 방법은 여전히 미해결된 문제로 남아 있습니다. 현재의 접근 방식들은 종종 복잡성을 더하는데, 예를 들어 비전-언어 모델(VLM)의 기존 어휘에 행동 토큰을 추가하거나 특수한 행동 헤드를 도입하는 방식이 있습니다. 흥미롭게도, 행동을 직접 텍스트로 표현하는 가장 단순한 전략은 크게 탐구되지 않았습니다. 본 연구는 이러한 아이디어를 탐구하기 위해 VLA-0을 소개합니다. 우리는 VLA-0이 효과적일 뿐만 아니라 놀라울 정도로 강력하다는 사실을 발견했습니다. 적절한 설계를 통해 VLA-0은 더 복잡한 모델들을 능가합니다. VLAs를 평가하는 데 널리 사용되는 벤치마크인 LIBERO에서, VLA-0은 동일한 로봇 데이터로 훈련된 모든 기존 방법들, 즉 pi_0.5-KI, OpenVLA-OFT 및 SmolVLA을 능가했습니다. 더 나아가, 대규모 로봇 특화 훈련 없이도, VLA-0은 대규모 로봇 데이터로 훈련된 pi_0.5-KI, pi_0, GR00T-N1 및 MolmoAct와 같은 방법들을 능가했습니다. 이러한 결과는 실제 세계에서도 적용되며, VLA-0은 대규모 실제 데이터로 사전 훈련된 VLA 모델인 SmolVLA을 능가합니다. 본 논문은 이러한 예상치 못한 발견을 요약하고, 이 단순하지만 강력한 VLA 설계의 고성능을 발휘하기 위해 필요한 구체적인 기술들을 설명합니다. 시각적 결과, 코드 및 훈련된 모델은 다음 링크에서 제공됩니다: https://vla0.github.io/.
English
Vision-Language-Action models (VLAs) hold immense promise for enabling generalist robot manipulation. However, the best way to build them remains an open question. Current approaches often add complexity, such as modifying the existing vocabulary of a Vision-Language Model (VLM) with action tokens or introducing special action heads. Curiously, the simplest strategy of representing actions directly as text has remained largely unexplored. This work introduces VLA-0 to investigate this idea. We find that VLA-0 is not only effective; it is surprisingly powerful. With the right design, VLA-0 outperforms more involved models. On LIBERO, a popular benchmark for evaluating VLAs, VLA-0 outperforms all existing methods trained on the same robotic data, including pi_0.5-KI, OpenVLA-OFT and SmolVLA. Furthermore, without large-scale robotics-specific training, it outperforms methods trained on large-scale robotic data, like pi_0.5-KI, pi_0, GR00T-N1 and MolmoAct. These findings also translate to the real world, where VLA-0 outperforms SmolVLA, a VLA model pre-trained on large-scale real data. This paper summarizes our unexpected findings and spells out the specific techniques required to unlock the high performance of this simple yet potent VLA design. Visual results, code, and trained models are provided here: https://vla0.github.io/.
PDF82October 17, 2025