Robot-R1: Aprendizaje por Refuerzo para el Razonamiento Embebido Mejorado en Robótica
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics
May 29, 2025
Autores: Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI
Resumen
Los Modelos de Visión y Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) han demostrado recientemente un gran potencial para avanzar en el campo de la robótica al combinar el razonamiento encarnado con el control de robots. Un enfoque común implica entrenar en tareas de razonamiento encarnado relacionadas con el control de robots utilizando el Ajuste Fino Supervisado (SFT, por sus siglas en inglés). Sin embargo, los conjuntos de datos de SFT a menudo se construyen de manera heurística y no están explícitamente optimizados para mejorar el control de robots. Además, el SFT suele generar problemas como el olvido catastrófico y una reducción en el rendimiento de generalización. Para abordar estas limitaciones, presentamos Robot-R1, un marco novedoso que aprovecha el aprendizaje por refuerzo para mejorar el razonamiento encarnado específicamente para el control de robots. Robot-R1 aprende a predecir el siguiente estado clave necesario para completar una tarea, condicionado por la imagen actual de la escena y los metadatos del entorno derivados de demostraciones expertas. Inspirado por el enfoque de aprendizaje DeepSeek-R1, Robot-R1 muestrea respuestas basadas en razonamiento y refuerza aquellas que conducen a predicciones más precisas. Nuestros experimentos muestran que los modelos entrenados con Robot-R1 superan a los métodos de SFT en tareas de razonamiento encarnado. A pesar de tener solo 7 mil millones de parámetros, Robot-R1 incluso supera a GPT-4o en tareas de razonamiento relacionadas con el control de acciones de bajo nivel, como el razonamiento espacial y de movimientos primitivos.
English
Large Vision-Language Models (LVLMs) have recently shown great promise in
advancing robotics by combining embodied reasoning with robot control. A common
approach involves training on embodied reasoning tasks related to robot control
using Supervised Fine-Tuning (SFT). However, SFT datasets are often
heuristically constructed and not explicitly optimized for improving robot
control. Furthermore, SFT often leads to issues such as catastrophic forgetting
and reduced generalization performance. To address these limitations, we
introduce Robot-R1, a novel framework that leverages reinforcement learning to
enhance embodied reasoning specifically for robot control. Robot-R1 learns to
predict the next keypoint state required for task completion, conditioned on
the current scene image and environment metadata derived from expert
demonstrations. Inspired by the DeepSeek-R1 learning approach, Robot-R1 samples
reasoning-based responses and reinforces those that lead to more accurate
predictions. Our experiments show that models trained with Robot-R1 outperform
SFT methods on embodied reasoning tasks. Despite having only 7B parameters,
Robot-R1 even surpasses GPT-4o on reasoning tasks related to low-level action
control, such as spatial and primitive movement reasoning.