ChatPaper.aiChatPaper

Green-VLA : Modèle Vision-Langue-Action en Phases pour Robots Généralistes

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

January 31, 2026
papers.authors: I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov
cs.AI

papers.abstract

Nous présentons Green-VLA, un cadre Vision-Langage-Action (VLA) modulaire conçu pour le déploiement en conditions réelles sur le robot humanoïde Green, tout en préservant la généralisation à travers diverses incarnations matérielles. Green-VLA suit un curriculum en cinq étapes : (L0) modèles de vision-langage de base, (L1) ancrage multimodal, (R0) pré-entraînement multi-incarnations, (R1) adaptation spécifique à l'incarnation, et (R2) alignement de la politique par apprentissage par renforcement (RL). Nous associons un pipeline évolutif de traitement de données (3 000 heures de démonstrations) avec un alignement temporel et un filtrage qualité, et utilisons une interface d'action unifiée et sensible à l'incarnation, permettant à une politique unique de contrôler des humanoïdes, des manipulateurs mobiles et des bras à base fixe. Lors de l'inférence, le contrôleur VLA est enrichi par une prédiction de la progression de l'épisode, une détection des données hors distribution et un guidage basé sur la prédiction articulaire pour améliorer la sécurité et la sélection précise des cibles. Les expériences sur les environnements Simpler BRIDGE WidowX et CALVIN ABC-D, ainsi que les évaluations sur robot réel, démontrent une forte généralisation et des gains de performance dus à l'alignement par RL en termes de taux de réussite, de robustesse et d'efficacité sur des tâches à long horizon.
English
We introduce Green-VLA, a staged Vision-Language-Action (VLA) framework for real-world deployment on the Green humanoid robot while maintaining generalization across diverse embodiments. Green-VLA follows a five stage curriculum: (L0) foundational VLMs, (L1) multimodal grounding, (R0) multi-embodiment pretraining, (R1) embodiment-specific adaptation, and (R2) reinforcement-learning (RL) policy alignment. We couple a scalable data-processing pipeline (3,000 hours of demonstrations) with temporal alignment and quality filtering, and use a unified, embodiment-aware action interface enabling a single policy to control humanoids, mobile manipulators, and fixed-base arms. At inference, the VLA controller is enhanced with episode-progress prediction, out-of-distribution detection, and joint-prediction-based guidance to improve safety and precise target selection. Experiments on Simpler BRIDGE WidowX and CALVIN ABC-D, as well as real-robot evaluations, show strong generalization and performance gains from RL alignment in success rate, robustness, and long-horizon efficiency.
PDF2356February 7, 2026