Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique

Résumé

La spécification de l'espace d'action joue un rôle central dans l'apprentissage de politiques de manipulation robotique par imitation, façonnant fondamentalement le paysage d'optimisation de l'apprentissage des politiques. Alors que les récents progrès se sont concentrés sur l'augmentation des données d'entraînement et de la capacité des modèles, le choix de l'espace d'action reste guidé par des heuristiques ad hoc ou des conceptions héritées, conduisant à une compréhension ambiguë des philosophies de conception des politiques robotiques. Pour résoudre cette ambiguïté, nous avons mené une étude empirique systématique à grande échelle, confirmant que l'espace d'action a bien des impacts significatifs et complexes sur l'apprentissage des politiques robotiques. Nous disséquons l'espace de conception de l'action selon des axes temporels et spatiaux, facilitant une analyse structurée de la manière dont ces choix régissent à la fois l'apprenabilité de la politique et la stabilité du contrôle. Sur la base de plus de 13 000 déploiements dans le monde réel sur un robot bimanuel et de l'évaluation de plus de 500 modèles entraînés sur quatre scénarios, nous examinons les compromis entre les représentations absolues et delta, et les paramétrisations dans l'espace des articulations et dans l'espace de tâche. Nos résultats à grande échelle suggèrent qu'une conception appropriée de la politique pour prédire des actions delta améliore constamment les performances, tandis que les représentations dans l'espace des articulations et dans l'espace de tâche offrent des avantages complémentaires, favorisant respectivement la stabilité du contrôle et la généralisation.

English

The specification of the action space plays a pivotal role in imitation-based robotic manipulation policy learning, fundamentally shaping the optimization landscape of policy learning. While recent advances have focused heavily on scaling training data and model capacity, the choice of action space remains guided by ad-hoc heuristics or legacy designs, leading to an ambiguous understanding of robotic policy design philosophies. To address this ambiguity, we conducted a large-scale and systematic empirical study, confirming that the action space does have significant and complex impacts on robotic policy learning. We dissect the action design space along temporal and spatial axes, facilitating a structured analysis of how these choices govern both policy learnability and control stability. Based on 13,000+ real-world rollouts on a bimanual robot and evaluation on 500+ trained models over four scenarios, we examine the trade-offs between absolute vs. delta representations, and joint-space vs. task-space parameterizations. Our large-scale results suggest that properly designing the policy to predict delta actions consistently improves performance, while joint-space and task-space representations offer complementary strengths, favoring control stability and generalization, respectively.

Démystifier la conception de l'espace d'action pour les politiques de manipulation robotique

Demystifying Action Space Design for Robotic Manipulation Policies

Résumé

Support