ChatPaper.aiChatPaper

Green-VLA: Gelaagd Visie-Taal-Actie-Model voor Generalistische Robots

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

January 31, 2026
Auteurs: I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov
cs.AI

Samenvatting

Wij introduceren Green-VLA, een gefaseerd Vision-Language-Action (VLA) raamwerk voor implementatie in de echte wereld op de Green humanoïde robot, waarbij generalisatie over diverse belichamingen behouden blijft. Green-VLA volgt een curriculum van vijf fasen: (L0) fundamentele VLMs, (L1) multimodale grounding, (R0) vooraf trainen op meerdere belichamingen, (R1) belichamingsspecifieke aanpassing, en (R2) beleidsalignering via reinforcement learning (RL). Wij koppelen een schaalbare gegevensverwerkingspijplijn (3.000 uur aan demonstraties) met temporele alignering en kwaliteitsfiltering, en gebruiken een uniforme, belichamingsbewuste actie-interface die een enkel beleid in staat stelt humanoïden, mobiele manipulatoren en vaste robotarmen aan te sturen. Tijdens inferentie wordt de VLA-controller versterkt met voorspelling van de episodevoortgang, detectie van out-of-distribution gegevens, en op gezamenlijke voorspelling gebaseerde begeleiding om de veiligheid en precieze doelselectie te verbeteren. Experimenten op Simpler BRIDGE WidowX en CALVIN ABC-D, evenals evaluaties op echte robots, tonen sterke generalisatie en prestatieverbeteringen door RL-alignering op het gebied van slagingspercentage, robuustheid en efficiëntie over lange tijdshorizonnen.
English
We introduce Green-VLA, a staged Vision-Language-Action (VLA) framework for real-world deployment on the Green humanoid robot while maintaining generalization across diverse embodiments. Green-VLA follows a five stage curriculum: (L0) foundational VLMs, (L1) multimodal grounding, (R0) multi-embodiment pretraining, (R1) embodiment-specific adaptation, and (R2) reinforcement-learning (RL) policy alignment. We couple a scalable data-processing pipeline (3,000 hours of demonstrations) with temporal alignment and quality filtering, and use a unified, embodiment-aware action interface enabling a single policy to control humanoids, mobile manipulators, and fixed-base arms. At inference, the VLA controller is enhanced with episode-progress prediction, out-of-distribution detection, and joint-prediction-based guidance to improve safety and precise target selection. Experiments on Simpler BRIDGE WidowX and CALVIN ABC-D, as well as real-robot evaluations, show strong generalization and performance gains from RL alignment in success rate, robustness, and long-horizon efficiency.
PDF3158March 12, 2026