ChatPaper.aiChatPaper

실용적 VLA 기반 모델

A Pragmatic VLA Foundation Model

January 26, 2026
저자: Wei Wu, Fan Lu, Yunnan Wang, Shuai Yang, Shi Liu, Fangjing Wang, Qian Zhu, He Sun, Yong Wang, Shuailei Ma, Yiyu Ren, Kejia Zhang, Hui Yu, Jingmei Zhao, Shuai Zhou, Zhenqi Qiu, Houlong Xiong, Ziyu Wang, Zechen Wang, Ran Cheng, Yong-Lu Li, Yongtao Huang, Xing Zhu, Yujun Shen, Kecheng Zheng
cs.AI

초록

로봇 매니픽레이션 분야에서 큰 잠재력을 지닌 능력 있는 VLA(Vision-Language-Action) 파운데이션 모델은 비용 효율성(예: 적응에 필요한 데이터 및 GPU 시간)을 보장하면서 작업과 플랫폼 간에 충실하게 일반화될 것으로 기대됩니다. 이를 위해 우리는 9가지 대중적인 듀얼 암 로봇 구성에서 수집한 약 20,000시간의 실세계 데이터로 LingBot-VLA를 개발했습니다. 각각 100개의 작업을 수행하고 작업당 130회의 사후 훈련 에피소드를 가진 3개의 로봇 플랫폼에 대한 체계적인 평가를 통해, 우리 모델은 경쟁 모델 대비 뚜렷한 우월성을 달성하며 강력한 성능과 넓은 일반화 가능성을 입증했습니다. 또한 8-GPU 훈련 설정으로 GPU당 초당 261개의 샘플 처리량을 제공하는 효율적인 코드베이스를 구축했으며, 이는 기존 VLA 중심 코드베이스 대비 (의존하는 VLM 기본 모델에 따라) 1.5~2.8배의 속도 향상을 나타냅니다. 위와 같은 특징들은 우리 모델이 실세계 배포에 매우 적합하도록 보장합니다. 로봇 학습 분야의 발전을 위해 우리는 코드, 기본 모델 및 벤치마크 데이터에 대한 오픈 액세스를 제공하며, 더 도전적인 작업의 가능성을 열고 건전한 평가 기준을 정립하는 데 주력하고자 합니다.
English
Offering great potential in robotic manipulation, a capable Vision-Language-Action (VLA) foundation model is expected to faithfully generalize across tasks and platforms while ensuring cost efficiency (e.g., data and GPU hours required for adaptation). To this end, we develop LingBot-VLA with around 20,000 hours of real-world data from 9 popular dual-arm robot configurations. Through a systematic assessment on 3 robotic platforms, each completing 100 tasks with 130 post-training episodes per task, our model achieves clear superiority over competitors, showcasing its strong performance and broad generalizability. We have also built an efficient codebase, which delivers a throughput of 261 samples per second per GPU with an 8-GPU training setup, representing a 1.5~2.8times (depending on the relied VLM base model) speedup over existing VLA-oriented codebases. The above features ensure that our model is well-suited for real-world deployment. To advance the field of robot learning, we provide open access to the code, base model, and benchmark data, with a focus on enabling more challenging tasks and promoting sound evaluation standards.
PDF262January 29, 2026