Green-VLA: Modelo de Visão-Linguagem-Ação em Etapas para Robôs Generalistas

Resumo

Apresentamos o Green-VLA, uma estrutura Vision-Language-Action (VLA) em estágios para implantação no mundo real no robô humanoide Green, mantendo a generalização entre diversas embodimentos. O Green-VLA segue um currículo de cinco estágios: (L0) modelos de linguagem visual fundamentais, (L1) fundamentação multimodal, (R0) pré-treinamento multi-embodiment, (R1) adaptação específica à embodiment e (R2) alinhamento de política por aprendizagem por reforço (RL). Acoplamos um pipeline escalável de processamento de dados (3.000 horas de demonstrações) com alinhamento temporal e filtragem de qualidade, e usamos uma interface de ação unificada e consciente da embodiment, permitindo que uma única política controle humanoides, manipuladores móveis e braços de base fixa. Na inferência, o controlador VLA é aprimorado com previsão do progresso do episódio, detecção de dados fora da distribuição e orientação baseada em previsão conjunta para melhorar a segurança e a seleção precisa de alvos. Experimentos no Simpler BRIDGE WidowX e CALVIN ABC-D, bem como avaliações em robôs reais, mostram forte generalização e ganhos de desempenho provenientes do alinhamento por RL em taxa de sucesso, robustez e eficiência em horizontes longos.

English

We introduce Green-VLA, a staged Vision-Language-Action (VLA) framework for real-world deployment on the Green humanoid robot while maintaining generalization across diverse embodiments. Green-VLA follows a five stage curriculum: (L0) foundational VLMs, (L1) multimodal grounding, (R0) multi-embodiment pretraining, (R1) embodiment-specific adaptation, and (R2) reinforcement-learning (RL) policy alignment. We couple a scalable data-processing pipeline (3,000 hours of demonstrations) with temporal alignment and quality filtering, and use a unified, embodiment-aware action interface enabling a single policy to control humanoids, mobile manipulators, and fixed-base arms. At inference, the VLA controller is enhanced with episode-progress prediction, out-of-distribution detection, and joint-prediction-based guidance to improve safety and precise target selection. Experiments on Simpler BRIDGE WidowX and CALVIN ABC-D, as well as real-robot evaluations, show strong generalization and performance gains from RL alignment in success rate, robustness, and long-horizon efficiency.