Desmitificando el Diseño del Espacio de Acción para Políticas de Manipulación Robótica

Resumen

La especificación del espacio de acción juega un papel fundamental en el aprendizaje de políticas de manipulación robótica basadas en imitación, moldeando de forma esencial el panorama de optimización del aprendizaje de políticas. Si bien los avances recientes se han centrado en gran medida en escalar los datos de entrenamiento y la capacidad del modelo, la elección del espacio de acción sigue guiada por heurísticas ad-hoc o diseños heredados, lo que conduce a una comprensión ambigua de las filosofías de diseño de políticas robóticas. Para abordar esta ambigüedad, realizamos un estudio empírico sistemático a gran escala, confirmando que el espacio de acción sí tiene impactos significativos y complejos en el aprendizaje de políticas robóticas. Diseccionamos el espacio de diseño de acciones a lo largo de ejes temporales y espaciales, facilitando un análisis estructurado de cómo estas elecciones gobiernan tanto la capacidad de aprendizaje de la política como la estabilidad del control. Basándonos en más de 13.000 ejecuciones en el mundo real en un robot bimanual y la evaluación de más de 500 modelos entrenados en cuatro escenarios, examinamos las compensaciones entre las representaciones absolutas frente a las delta, y las parametrizaciones en el espacio de articulaciones frente al espacio de tareas. Nuestros resultados a gran escala sugieren que diseñar adecuadamente la política para predecir acciones delta mejora consistentemente el rendimiento, mientras que las representaciones en el espacio de articulaciones y en el espacio de tareas ofrecen fortalezas complementarias, favoreciendo la estabilidad del control y la generalización, respectivamente.

English

The specification of the action space plays a pivotal role in imitation-based robotic manipulation policy learning, fundamentally shaping the optimization landscape of policy learning. While recent advances have focused heavily on scaling training data and model capacity, the choice of action space remains guided by ad-hoc heuristics or legacy designs, leading to an ambiguous understanding of robotic policy design philosophies. To address this ambiguity, we conducted a large-scale and systematic empirical study, confirming that the action space does have significant and complex impacts on robotic policy learning. We dissect the action design space along temporal and spatial axes, facilitating a structured analysis of how these choices govern both policy learnability and control stability. Based on 13,000+ real-world rollouts on a bimanual robot and evaluation on 500+ trained models over four scenarios, we examine the trade-offs between absolute vs. delta representations, and joint-space vs. task-space parameterizations. Our large-scale results suggest that properly designing the policy to predict delta actions consistently improves performance, while joint-space and task-space representations offer complementary strengths, favoring control stability and generalization, respectively.

Desmitificando el Diseño del Espacio de Acción para Políticas de Manipulación Robótica

Demystifying Action Space Design for Robotic Manipulation Policies

Resumen

Support