ChatPaper.aiChatPaper

Un modèle de fondation pragmatique pour le VLA

A Pragmatic VLA Foundation Model

January 26, 2026
papers.authors: Wei Wu, Fan Lu, Yunnan Wang, Shuai Yang, Shi Liu, Fangjing Wang, Qian Zhu, He Sun, Yong Wang, Shuailei Ma, Yiyu Ren, Kejia Zhang, Hui Yu, Jingmei Zhao, Shuai Zhou, Zhenqi Qiu, Houlong Xiong, Ziyu Wang, Zechen Wang, Ran Cheng, Yong-Lu Li, Yongtao Huang, Xing Zhu, Yujun Shen, Kecheng Zheng
cs.AI

papers.abstract

Offrant un potentiel considérable pour la manipulation robotique, un modèle de base Vision-Langage-Action (VLA) performant est censé généraliser fidèlement les tâches et les plateformes tout en garantissant une efficacité économique (par exemple, les données et les heures de GPU nécessaires à l'adaptation). À cette fin, nous développons LingBot-VLA avec environ 20 000 heures de données réelles provenant de 9 configurations populaires de robots à deux bras. Grâce à une évaluation systématique sur 3 plateformes robotiques, chacune accomplissant 100 tâches avec 130 épisodes post-entraînement par tâche, notre modèle démontre une nette supériorité par rapport aux concurrents, mettant en évidence ses performances solides et sa grande capacité de généralisation. Nous avons également construit une base de code efficace, qui offre un débit de 261 échantillons par seconde par GPU avec une configuration d'entraînement sur 8 GPU, représentant une accélération de 1,5 à 2,8 fois (selon le modèle de base VLM utilisé) par rapport aux bases de code existantes axées sur le VLA. Les caractéristiques ci-dessus garantissent que notre modèle est bien adapté à un déploiement réel. Pour faire progresser le domaine de l'apprentissage robotique, nous fournissons un accès ouvert au code, au modèle de base et aux données de référence, avec pour objectif de permettre des tâches plus complexes et de promouvoir des normes d'évaluation rigoureuses.
English
Offering great potential in robotic manipulation, a capable Vision-Language-Action (VLA) foundation model is expected to faithfully generalize across tasks and platforms while ensuring cost efficiency (e.g., data and GPU hours required for adaptation). To this end, we develop LingBot-VLA with around 20,000 hours of real-world data from 9 popular dual-arm robot configurations. Through a systematic assessment on 3 robotic platforms, each completing 100 tasks with 130 post-training episodes per task, our model achieves clear superiority over competitors, showcasing its strong performance and broad generalizability. We have also built an efficient codebase, which delivers a throughput of 261 samples per second per GPU with an 8-GPU training setup, representing a 1.5~2.8times (depending on the relied VLM base model) speedup over existing VLA-oriented codebases. The above features ensure that our model is well-suited for real-world deployment. To advance the field of robot learning, we provide open access to the code, base model, and benchmark data, with a focus on enabling more challenging tasks and promoting sound evaluation standards.
PDF262January 29, 2026