VLANeXt: 강력한 VLA 모델 구축을 위한 레시피
VLANeXt: Recipes for Building Strong VLA Models
February 20, 2026
저자: Xiao-Ming Wu, Bin Fan, Kang Liao, Jian-Jian Jiang, Runze Yang, Yihang Luo, Zhonghua Wu, Wei-Shi Zheng, Chen Change Loy
cs.AI
초록
대규모 파운데이션 모델의 부상에 이어, 시각-언어-행동 모델(VLAs)이 강력한 시각 및 언어 이해력을 활용하여 범용 정책 학습을 수행하는 모델로 등장했습니다. 그러나 현재 VLA 생태계는 여전히 파편화되어 있고 탐색적 단계에 머물러 있습니다. 많은 연구 그룹이 각자의 VLA 모델을 제안했지만, 훈련 프로토콜과 평가 설정의 불일치로 인해 어떤 설계 선택이 실제로 중요한지 파악하기 어렵습니다. 이 진화하는 분야에 체계를 부여하기 위해, 우리는 통합된 프레임워크와 평가 설정 하에서 VLA 설계 공간을 재검토합니다. RT-2 및 OpenVLA와 유사한 단순한 VLA 베이스라인을 시작점으로, 기초 구성 요소, 인식 핵심 요소, 행동 모델링 관점이라는 세 가지 차원을 따라 설계 선택을 체계적으로 분석합니다. 이 연구를 통해 우리는 강력한 VLA 모델을 구축하기 위한 실용적인 지침을 구성하는 12가지 핵심 발견을 도출합니다. 이 탐구의 결과물은 단순하면서도 효과적인 모델인 VLANeXt입니다. VLANeXt는 LIBERO 및 LIBERO-plus 벤치마크에서 기존 최첨단 방법들을 능가하며 실제 실험에서도 강력한 일반화 성능을 입증합니다. 우리는 연구 결과의 재현, 설계 공간 탐색, 그리고 공유 기반 위에 새로운 VLA 변형을 구축할 수 있는 공동 플랫폼 역할을 하는 통합되고 사용하기 쉬운 코드베이스를 공개할 예정입니다.
English
Following the rise of large foundation models, Vision-Language-Action models (VLAs) emerged, leveraging strong visual and language understanding for general-purpose policy learning. Yet, the current VLA landscape remains fragmented and exploratory. Although many groups have proposed their own VLA models, inconsistencies in training protocols and evaluation settings make it difficult to identify which design choices truly matter. To bring structure to this evolving space, we reexamine the VLA design space under a unified framework and evaluation setup. Starting from a simple VLA baseline similar to RT-2 and OpenVLA, we systematically dissect design choices along three dimensions: foundational components, perception essentials, and action modelling perspectives. From this study, we distill 12 key findings that together form a practical recipe for building strong VLA models. The outcome of this exploration is a simple yet effective model, VLANeXt. VLANeXt outperforms prior state-of-the-art methods on the LIBERO and LIBERO-plus benchmarks and demonstrates strong generalization in real-world experiments. We will release a unified, easy-to-use codebase that serves as a common platform for the community to reproduce our findings, explore the design space, and build new VLA variants on top of a shared foundation.