Green-VLA: 汎用ロボットのための段階的視覚言語行動モデル
Green-VLA: Staged Vision-Language-Action Model for Generalist Robots
January 31, 2026
著者: I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov
cs.AI
要旨
本論文では、Greenヒューマノイドロボットへの実世界展開を目的とした段階的Vision-Language-Action(VLA)フレームワーク「Green-VLA」を提案する。本フレームワークは多様な実装形態にわたる汎化性を維持しつつ、以下の5段階カリキュラムに従う:(L0)基盤的VLM、(L1)マルチモーダル接地、(R0)マルチ実装事前学習、(R1)実装特化適応、(R2)強化学習(RL)によるポリシー調整。3,000時間に及ぶ実証データを処理するスケーラブルなパイプラインを時間軸調整と品質フィルタリングと統合し、単一ポリシーでヒューマノイド、移動マニピュレータ、固定ベースアームを制御可能な統一的な実装認識アクションインターフェースを採用する。推論時には、VLAコントローラをエピソード進捗予測、分布外検出、関節予測ベースのガイダンスで拡張し、安全性と精密な目標選択を向上させる。Simpler BRIDGE WidowXおよびCALVIN ABC-Dでの実験、ならびに実機評価により、RL調整による成功率、頑健性、長期的効率性の向上と強力な汎化性能が実証された。
English
We introduce Green-VLA, a staged Vision-Language-Action (VLA) framework for real-world deployment on the Green humanoid robot while maintaining generalization across diverse embodiments. Green-VLA follows a five stage curriculum: (L0) foundational VLMs, (L1) multimodal grounding, (R0) multi-embodiment pretraining, (R1) embodiment-specific adaptation, and (R2) reinforcement-learning (RL) policy alignment. We couple a scalable data-processing pipeline (3,000 hours of demonstrations) with temporal alignment and quality filtering, and use a unified, embodiment-aware action interface enabling a single policy to control humanoids, mobile manipulators, and fixed-base arms. At inference, the VLA controller is enhanced with episode-progress prediction, out-of-distribution detection, and joint-prediction-based guidance to improve safety and precise target selection. Experiments on Simpler BRIDGE WidowX and CALVIN ABC-D, as well as real-robot evaluations, show strong generalization and performance gains from RL alignment in success rate, robustness, and long-horizon efficiency.