로봇 매니퓰레이션 정책을 위한 행동 공간 설계의 이해
Demystifying Action Space Design for Robotic Manipulation Policies
February 26, 2026
저자: Yuchun Feng, Jinliang Zheng, Zhihao Wang, Dongxiu Liu, Jianxiong Li, Jiangmiao Pang, Tai Wang, Xianyuan Zhan
cs.AI
초록
행동 공간의 명세는 모방 기반 로봇 매니퓰레이션 정책 학습에서 중추적인 역할을 수행하며, 정책 학습의 최적화 환경을 근본적으로 형성합니다. 최근 발전이 훈련 데이터와 모델 용량의 확장에 집중되어 왔음에도 불구하고, 행동 공간의 선택은 여전히 임시적인 경험적 방법이나 기존 설계에 의해 지배되어 로봇 정책 설계 철학에 대한 명확한 이해가 부족한 실정입니다. 이러한 모호함을 해결하기 위해 우리는 대규모 체계적 실증 연구를 수행하여 행동 공간이 로봇 정책 학습에 실제로 중대하고 복잡한 영향을 미친다는 사실을 확인했습니다. 우리는 시간적 및 공간적 축을 따라 행동 설계 공간을 세분화하여 이러한 선택이 정책 학습 가능성과 제어 안정성을 어떻게 지배하는지 구조화된 분석을 가능하게 합니다. 양손 로봇에서 수행한 13,000회 이상의 실제 구동 및 4가지 시나리오에 걸친 500개 이상의 훈련된 모델 평가를 바탕으로, 절대 표현과 델타 표현 간의 장단점과 관절 공간 대 작업 공간 매개변수화를 비교 분석합니다. 우리의 대규모 실험 결과는 정책을 델타 행동을 예측하도록 적절히 설계하는 것이 지속적으로 성능을 향상시키는 반면, 관절 공간과 작업 공간 표현은 각각 제어 안정성과 일반화에 유리한 상호 보완적 강점을 제공함을 시사합니다.
English
The specification of the action space plays a pivotal role in imitation-based robotic manipulation policy learning, fundamentally shaping the optimization landscape of policy learning. While recent advances have focused heavily on scaling training data and model capacity, the choice of action space remains guided by ad-hoc heuristics or legacy designs, leading to an ambiguous understanding of robotic policy design philosophies. To address this ambiguity, we conducted a large-scale and systematic empirical study, confirming that the action space does have significant and complex impacts on robotic policy learning. We dissect the action design space along temporal and spatial axes, facilitating a structured analysis of how these choices govern both policy learnability and control stability. Based on 13,000+ real-world rollouts on a bimanual robot and evaluation on 500+ trained models over four scenarios, we examine the trade-offs between absolute vs. delta representations, and joint-space vs. task-space parameterizations. Our large-scale results suggest that properly designing the policy to predict delta actions consistently improves performance, while joint-space and task-space representations offer complementary strengths, favoring control stability and generalization, respectively.