Desmistificando o Design do Espaço de Ação para Políticas de Manipulação Robótica

Resumo

A especificação do espaço de ação desempenha um papel fundamental na aprendizagem de políticas de manipulação robótica baseada em imitação, moldando essencialmente o panorama de otimização do aprendizado da política. Embora os avanços recentes tenham se concentrado fortemente na escalabilidade dos dados de treinamento e na capacidade do modelo, a escolha do espaço de ação continua sendo guiada por heurísticas ad-hoc ou projetos herdados, levando a uma compreensão ambígua das filosofias de projeto de políticas robóticas. Para abordar essa ambiguidade, realizamos um estudo empírico sistemático e em larga escala, confirmando que o espaço de ação realmente tem impactos significativos e complexos no aprendizado de políticas robóticas. Dissecamos o espaço de projeto da ação ao longo dos eixos temporal e espacial, facilitando uma análise estruturada de como essas escolhas governam tanto a capacidade de aprendizado da política quanto a estabilidade de controle. Com base em mais de 13.000 execuções no mundo real em um robô bimanual e na avaliação de mais de 500 modelos treinados em quatro cenários, examinamos os compromissos entre representações absolutas versus delta, e parametrizações no espaço das juntas versus no espaço de tarefa. Nossos resultados em larga escala sugerem que projetar adequadamente a política para prever ações delta melhora consistentemente o desempenho, enquanto as representações no espaço das juntas e no espaço de tarefa oferecem vantagens complementares, favorecendo a estabilidade de controle e a generalização, respectivamente.

English

The specification of the action space plays a pivotal role in imitation-based robotic manipulation policy learning, fundamentally shaping the optimization landscape of policy learning. While recent advances have focused heavily on scaling training data and model capacity, the choice of action space remains guided by ad-hoc heuristics or legacy designs, leading to an ambiguous understanding of robotic policy design philosophies. To address this ambiguity, we conducted a large-scale and systematic empirical study, confirming that the action space does have significant and complex impacts on robotic policy learning. We dissect the action design space along temporal and spatial axes, facilitating a structured analysis of how these choices govern both policy learnability and control stability. Based on 13,000+ real-world rollouts on a bimanual robot and evaluation on 500+ trained models over four scenarios, we examine the trade-offs between absolute vs. delta representations, and joint-space vs. task-space parameterizations. Our large-scale results suggest that properly designing the policy to predict delta actions consistently improves performance, while joint-space and task-space representations offer complementary strengths, favoring control stability and generalization, respectively.