Разработка пространства действий для политик роботизированного манипулирования: устранение мифов

Аннотация

Спецификация пространства действий играет ключевую роль в обучении политик роботизированного манипулирования на основе имитации, фундаментально формируя ландшафт оптимизации процесса обучения политик. В то время как последние достижения были в основном сосредоточены на масштабировании обучающих данных и мощности моделей, выбор пространства действий по-прежнему руководствуется эвристическими методами или унаследованными проектами, что приводит к неоднозначному пониманию философии проектирования роботизированных политик. Чтобы устранить эту неоднозначность, мы провели крупномасштабное и систематическое эмпирическое исследование, подтвердив, что пространство действий действительно оказывает значительное и сложное влияние на обучение роботизированных политик. Мы расчленяем пространство проектирования действий по временной и пространственной осям, что способствует структурированному анализу того, как эти выборы управляют как обучаемостью политики, так и стабильностью управления. На основе более 13 000 реальных испытаний на двуручном роботе и оценки более 500 обученных моделей в четырех сценариях мы исследуем компромиссы между абсолютными и дельта-представлениями, а также параметризациями в пространстве суставов и в рабочем пространстве. Наши крупномасштабные результаты позволяют предположить, что правильное проектирование политики для предсказания дельта-действий последовательно улучшает производительность, в то время как представления в пространстве суставов и в рабочем пространстве предлагают взаимодополняющие преимущества, способствуя стабильности управления и обобщающей способности соответственно.

English

The specification of the action space plays a pivotal role in imitation-based robotic manipulation policy learning, fundamentally shaping the optimization landscape of policy learning. While recent advances have focused heavily on scaling training data and model capacity, the choice of action space remains guided by ad-hoc heuristics or legacy designs, leading to an ambiguous understanding of robotic policy design philosophies. To address this ambiguity, we conducted a large-scale and systematic empirical study, confirming that the action space does have significant and complex impacts on robotic policy learning. We dissect the action design space along temporal and spatial axes, facilitating a structured analysis of how these choices govern both policy learnability and control stability. Based on 13,000+ real-world rollouts on a bimanual robot and evaluation on 500+ trained models over four scenarios, we examine the trade-offs between absolute vs. delta representations, and joint-space vs. task-space parameterizations. Our large-scale results suggest that properly designing the policy to predict delta actions consistently improves performance, while joint-space and task-space representations offer complementary strengths, favoring control stability and generalization, respectively.

Разработка пространства действий для политик роботизированного манипулирования: устранение мифов

Demystifying Action Space Design for Robotic Manipulation Policies

Аннотация

Support