ChatPaper.aiChatPaper

Green-VLA: Modelo de Visión-Lenguaje-Acción Escalonado para Robots Generalistas

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

January 31, 2026
Autores: I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov
cs.AI

Resumen

Presentamos Green-VLA, un marco de trabajo Vision-Lenguaje-Acción (VLA) por etapas para el despliegue en el mundo real en el robot humanoide Green, manteniendo al mismo tiempo la generalización entre diversas encarnaciones. Green-VLA sigue un currículo de cinco etapas: (L0) modelos fundacionales de visión y lenguaje (VLM), (L1) grounding multimodal, (R0) preentrenamiento multi-encarnación, (R1) adaptación específica por encarnación, y (R2) alineación de políticas mediante aprendizaje por refuerzo (RL). Acoplamos un pipeline escalable de procesamiento de datos (3.000 horas de demostraciones) con alineación temporal y filtrado de calidad, y utilizamos una interfaz de acción unificada y consciente de la encarnación que permite a una única política controlar humanoides, manipuladores móviles y brazos de base fija. En la inferencia, el controlador VLA se ve mejorado con predicción del progreso del episodio, detección de datos fuera de distribución y guía basada en predicción conjunta para mejorar la seguridad y la selección precisa del objetivo. Los experimentos en Simpler BRIDGE WidowX y CALVIN ABC-D, así como las evaluaciones en robots reales, muestran una fuerte generalización y ganancias de rendimiento debidas a la alineación por RL en tasa de éxito, robustez y eficiencia en horizontes temporales largos.
English
We introduce Green-VLA, a staged Vision-Language-Action (VLA) framework for real-world deployment on the Green humanoid robot while maintaining generalization across diverse embodiments. Green-VLA follows a five stage curriculum: (L0) foundational VLMs, (L1) multimodal grounding, (R0) multi-embodiment pretraining, (R1) embodiment-specific adaptation, and (R2) reinforcement-learning (RL) policy alignment. We couple a scalable data-processing pipeline (3,000 hours of demonstrations) with temporal alignment and quality filtering, and use a unified, embodiment-aware action interface enabling a single policy to control humanoids, mobile manipulators, and fixed-base arms. At inference, the VLA controller is enhanced with episode-progress prediction, out-of-distribution detection, and joint-prediction-based guidance to improve safety and precise target selection. Experiments on Simpler BRIDGE WidowX and CALVIN ABC-D, as well as real-robot evaluations, show strong generalization and performance gains from RL alignment in success rate, robustness, and long-horizon efficiency.
PDF2356February 7, 2026