Green-VLA: Modello Visione-Linguaggio-Azione a Stadi per Robot Generalisti

Abstract

Introduciamo Green-VLA, un framework Vision-Language-Action (VLA) a stadi progettato per il dispiegamento nel mondo reale sul robot umanoide Green, mantenendo al contempo la generalizzazione su diverse embodiment. Green-VLA segue un curriculum a cinque stadi: (L0) modelli linguistici visivi (VLM) fondazionali, (L1) grounding multimodale, (R0) pre-addestramento multi-embodiment, (R1) adattamento specifico per embodiment, e (R2) allineamento della politica di apprendimento per rinforzo (RL). Accoppiamo una pipeline scalabile di elaborazione dati (3.000 ore di dimostrazioni) con allineamento temporale e filtraggio della qualità, e utilizziamo un'interfaccia d'azione unificata e consapevole dell'embodiment che permette a una singola politica di controllare umanoidi, manipolatori mobili e bracci a base fissa. In fase di inferenza, il controller VLA è potenziato con la previsione dello stato dell'episodio, il rilevamento di dati fuori distribuzione e una guida basata sulla predizione congiunta per migliorare la sicurezza e la selezione precisa del target. Esperimenti su Simpler BRIDGE WidowX e CALVIN ABC-D, oltre a valutazioni su robot reali, mostrano una forte generalizzazione e miglioramenti delle prestazioni dovuti all'allineamento RL in termini di tasso di successo, robustezza ed efficienza in orizzonti temporali lunghi.

English

We introduce Green-VLA, a staged Vision-Language-Action (VLA) framework for real-world deployment on the Green humanoid robot while maintaining generalization across diverse embodiments. Green-VLA follows a five stage curriculum: (L0) foundational VLMs, (L1) multimodal grounding, (R0) multi-embodiment pretraining, (R1) embodiment-specific adaptation, and (R2) reinforcement-learning (RL) policy alignment. We couple a scalable data-processing pipeline (3,000 hours of demonstrations) with temporal alignment and quality filtering, and use a unified, embodiment-aware action interface enabling a single policy to control humanoids, mobile manipulators, and fixed-base arms. At inference, the VLA controller is enhanced with episode-progress prediction, out-of-distribution detection, and joint-prediction-based guidance to improve safety and precise target selection. Experiments on Simpler BRIDGE WidowX and CALVIN ABC-D, as well as real-robot evaluations, show strong generalization and performance gains from RL alignment in success rate, robustness, and long-horizon efficiency.

Green-VLA: Modello Visione-Linguaggio-Azione a Stadi per Robot Generalisti

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Abstract

Support