GigaBrain-0.5M*: um Modelo de Linguagem Visível que Aprende a partir de Aprendizagem por Reforço Baseada em Modelo Mundial

Resumo

Os modelos visão-linguagem-ação (VLA) que preveem diretamente sequências de ações multi-etapa a partir de observações atuais enfrentam limitações inerentes devido à compreensão restrita da cena e a capacidades fracas de antecipação futura. Em contraste, os modelos de mundo de vídeo pré-treinados em corpora de vídeo em escala da web exibem raciocínio espaço-temporal robusto e previsão futura precisa, tornando-os uma base natural para aprimorar o aprendizado VLA. Portanto, propomos o GigaBrain-0.5M*, um modelo VLA treinado via aprendizado por reforço baseado em modelo de mundo. Construído sobre o GigaBrain-0.5, que é pré-treinado em mais de 10.000 horas de dados de manipulação robótica, cuja versão intermediária atualmente ocupa a primeira posição no benchmark internacional RoboChallenge. O GigaBrain-0.5M* integra ainda mais o aprendizado por reforço baseado em modelo de mundo via RAMP (Reinforcement leArning via world Model-conditioned Policy) para permitir uma adaptação robusta entre tarefas. Resultados empíricos demonstram que o RAMP alcança ganhos substanciais de desempenho sobre a linha de base RECAP, produzindo melhorias de aproximadamente 30% em tarefas desafiadoras, incluindo Dobragem de Roupa, Empacotamento de Caixas e Preparo de Espresso. Criticalmente, o GigaBrain-0.5M* exibe execução confiável de longo horizonte, realizando consistentemente tarefas complexas de manipulação sem falhas, conforme validado por vídeos de implantação no mundo real em nossa {página do projeto}[https://gigabrain05m.github.io].

English

Vision-language-action (VLA) models that directly predict multi-step action chunks from current observations face inherent limitations due to constrained scene understanding and weak future anticipation capabilities. In contrast, video world models pre-trained on web-scale video corpora exhibit robust spatiotemporal reasoning and accurate future prediction, making them a natural foundation for enhancing VLA learning. Therefore, we propose GigaBrain-0.5M*, a VLA model trained via world model-based reinforcement learning. Built upon GigaBrain-0.5, which is pre-trained on over 10,000 hours of robotic manipulation data, whose intermediate version currently ranks first on the international RoboChallenge benchmark. GigaBrain-0.5M* further integrates world model-based reinforcement learning via RAMP (Reinforcement leArning via world Model-conditioned Policy) to enable robust cross-task adaptation. Empirical results demonstrate that RAMP achieves substantial performance gains over the RECAP baseline, yielding improvements of approximately 30\% on challenging tasks including Laundry Folding, Box Packing, and Espresso Preparation. Critically, GigaBrain-0.5M^* exhibits reliable long-horizon execution, consistently accomplishing complex manipulation tasks without failure as validated by real-world deployment videos on our https://gigabrain05m.github.io{project page}.

GigaBrain-0.5M*: um Modelo de Linguagem Visível que Aprende a partir de Aprendizagem por Reforço Baseada em Modelo Mundial

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

Resumo

Support