Green-VLA: 범용 로봇을 위한 단계별 시각-언어-행동 모델
Green-VLA: Staged Vision-Language-Action Model for Generalist Robots
January 31, 2026
저자: I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov
cs.AI
초록
Green-VLA는 다양한 구현체 간 일반화 성능을 유지하면서 Green 휴머노이드 로봇의 실제 현장 적용을 위한 단계적 Vision-Language-Action(VLA) 프레임워크를 소개한다. Green-VLA는 5단계 커리큘럼(L0) 기초 VLM, (L1) 멀티모달 접지, (R0) 다중 구현체 사전 학습, (R1) 구현체 특화 적응, (R2) 강화학습 정책 정렬을 따른다. 우리는 시간적 정렬과 품질 필터링을 통한 확장 가능한 데이터 처리 파이프라인(3,000시간 데모)을 구축하고, 단일 정책이 휴머노이드, 이동형 매니퓰레이터, 고정형 암을 제어할 수 있는 통합된 구현체 인식 액션 인터페이스를 사용한다. 추론 시 VLA 제어기는 에피소드 진행 예측, 분포 외 탐지, 관절 예측 기반 안내를 통해 향상되어 안전성과 정확한 목표 선택을 개선한다. Simpler BRIDGE WidowX 및 CALVIN ABC-D 실험과 실제 로봇 평가를 통해 성공률, 견고성, 장기계획 효율성에서 강화학습 정렬의 강력한 일반화 및 성능 향상을 확인했다.
English
We introduce Green-VLA, a staged Vision-Language-Action (VLA) framework for real-world deployment on the Green humanoid robot while maintaining generalization across diverse embodiments. Green-VLA follows a five stage curriculum: (L0) foundational VLMs, (L1) multimodal grounding, (R0) multi-embodiment pretraining, (R1) embodiment-specific adaptation, and (R2) reinforcement-learning (RL) policy alignment. We couple a scalable data-processing pipeline (3,000 hours of demonstrations) with temporal alignment and quality filtering, and use a unified, embodiment-aware action interface enabling a single policy to control humanoids, mobile manipulators, and fixed-base arms. At inference, the VLA controller is enhanced with episode-progress prediction, out-of-distribution detection, and joint-prediction-based guidance to improve safety and precise target selection. Experiments on Simpler BRIDGE WidowX and CALVIN ABC-D, as well as real-robot evaluations, show strong generalization and performance gains from RL alignment in success rate, robustness, and long-horizon efficiency.