Robot-R1: Aprendizado por Reforço para Raciocínio Embarcado Aprimorado em Robótica
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
May 29, 2025
Autores: Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI
Resumo
Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês) têm demonstrado recentemente um grande potencial no avanço da robótica ao combinar raciocínio incorporado com controle de robôs. Uma abordagem comum envolve o treinamento em tarefas de raciocínio incorporado relacionadas ao controle de robôs usando Ajuste Fino Supervisionado (SFT, na sigla em inglês). No entanto, os conjuntos de dados de SFT são frequentemente construídos de forma heurística e não são explicitamente otimizados para melhorar o controle de robôs. Além disso, o SFT frequentemente leva a problemas como esquecimento catastrófico e redução no desempenho de generalização. Para abordar essas limitações, introduzimos o Robot-R1, uma estrutura inovadora que aproveita o aprendizado por reforço para aprimorar o raciocínio incorporado especificamente para o controle de robôs. O Robot-R1 aprende a prever o próximo estado de ponto-chave necessário para a conclusão da tarefa, condicionado à imagem atual da cena e aos metadados do ambiente derivados de demonstrações de especialistas. Inspirado pela abordagem de aprendizado DeepSeek-R1, o Robot-R1 amostra respostas baseadas em raciocínio e reforça aquelas que levam a previsões mais precisas. Nossos experimentos mostram que os modelos treinados com o Robot-R1 superam os métodos de SFT em tarefas de raciocínio incorporado. Apesar de ter apenas 7 bilhões de parâmetros, o Robot-R1 até supera o GPT-4o em tarefas de raciocínio relacionadas ao controle de ações de baixo nível, como raciocínio espacial e de movimentos primitivos.
English
Large Vision-Language Models (LVLMs) have recently shown great promise in
advancing robotics by combining embodied reasoning with robot control. A common
approach involves training on embodied reasoning tasks related to robot control
using Supervised Fine-Tuning (SFT). However, SFT datasets are often
heuristically constructed and not explicitly optimized for improving robot
control. Furthermore, SFT often leads to issues such as catastrophic forgetting
and reduced generalization performance. To address these limitations, we
introduce Robot-R1, a novel framework that leverages reinforcement learning to
enhance embodied reasoning specifically for robot control. Robot-R1 learns to
predict the next keypoint state required for task completion, conditioned on
the current scene image and environment metadata derived from expert
demonstrations. Inspired by the DeepSeek-R1 learning approach, Robot-R1 samples
reasoning-based responses and reinforces those that lead to more accurate
predictions. Our experiments show that models trained with Robot-R1 outperform
SFT methods on embodied reasoning tasks. Despite having only 7B parameters,
Robot-R1 even surpasses GPT-4o on reasoning tasks related to low-level action
control, such as spatial and primitive movement reasoning.