ChatPaper.aiChatPaper

実用的なVLA基盤モデル

A Pragmatic VLA Foundation Model

January 26, 2026
著者: Wei Wu, Fan Lu, Yunnan Wang, Shuai Yang, Shi Liu, Fangjing Wang, Qian Zhu, He Sun, Yong Wang, Shuailei Ma, Yiyu Ren, Kejia Zhang, Hui Yu, Jingmei Zhao, Shuai Zhou, Zhenqi Qiu, Houlong Xiong, Ziyu Wang, Zechen Wang, Ran Cheng, Yong-Lu Li, Yongtao Huang, Xing Zhu, Yujun Shen, Kecheng Zheng
cs.AI

要旨

ロボットマニピュレーションにおける大きな可能性を秘めた高度なVision-Language-Action(VLA)基盤モデルは、コスト効率(例えば適応に必要なデータ量やGPU時間)を確保しつつ、タスクやプラットフォームを超えて忠実に汎化することが期待される。この目的に向けて、我々は9種類の一般的なデュアルアームロボット構成から得られた約20,000時間の実世界データを用いてLingBot-VLAを開発した。3つのロボットプラットフォームにおける体系的な評価(各プラットフォームが100のタスクを遂行し、タスク当たり130回の学習後エピソードを実施)を通じて、本モデルは競合モデルを明確に上回る性能を示し、強力なパフォーマンスと広範な汎化性を実証した。さらに、効率的なコードベースを構築し、8GPU学習設定においてGPU当たり毎秒261サンプルの処理速度を達成。これは既存のVLA向けコードベース比で1.5~2.8倍(依存するVLMベースモデルにより変動)の高速化に相当する。これらの特徴により、本モデルが実世界での展開に適していることを保証する。ロボット学習分野の発展に貢献するため、コード・ベースモデル・ベンチマークデータを公開し、より挑戦的なタスクの実現と健全な評価基準の促進に重点を置く。
English
Offering great potential in robotic manipulation, a capable Vision-Language-Action (VLA) foundation model is expected to faithfully generalize across tasks and platforms while ensuring cost efficiency (e.g., data and GPU hours required for adaptation). To this end, we develop LingBot-VLA with around 20,000 hours of real-world data from 9 popular dual-arm robot configurations. Through a systematic assessment on 3 robotic platforms, each completing 100 tasks with 130 post-training episodes per task, our model achieves clear superiority over competitors, showcasing its strong performance and broad generalizability. We have also built an efficient codebase, which delivers a throughput of 261 samples per second per GPU with an 8-GPU training setup, representing a 1.5~2.8times (depending on the relied VLM base model) speedup over existing VLA-oriented codebases. The above features ensure that our model is well-suited for real-world deployment. To advance the field of robot learning, we provide open access to the code, base model, and benchmark data, with a focus on enabling more challenging tasks and promoting sound evaluation standards.
PDF262January 29, 2026