Demistificare la Progettazione dello Spazio d'Azione per le Politiche di Manipolazione Robotica

Abstract

La specificazione dello spazio d'azione svolge un ruolo cruciale nell'apprendimento di politiche di manipolazione robotica basata sull'imitazione, plasmando fondamentalmente il panorama di ottimizzazione dell'apprendimento delle politiche. Sebbene i recenti progressi si siano concentrati pesantemente sul ridimensionamento dei dati di addestramento e della capacità del modello, la scelta dello spazio d'azione continua a essere guidata da euristiche ad hoc o progetti legacy, portando a una comprensione ambigua delle filosofie di progettazione delle politiche robotiche. Per affrontare questa ambiguità, abbiamo condotto uno studio empirico sistematico e su larga scala, confermando che lo spazio d'azione ha impatti significativi e complessi sull'apprendimento delle politiche robotiche. Sezioniamo lo spazio di progettazione dell'azione lungo assi temporali e spaziali, facilitando un'analisi strutturata di come queste scelte governino sia l'apprendibilità della politica che la stabilità del controllo. Basandoci su oltre 13.000 rollout nel mondo reale su un robot bimanuale e sulla valutazione di oltre 500 modelli addestrati in quattro scenari, esaminiamo i compromessi tra rappresentazioni assolute e delta e le parametrizzazioni nello spazio dei giunti rispetto a quello delle coordinate operative. I nostri risultati su larga scala suggeriscono che progettare correttamente la politica per prevedere azioni delta migliora costantemente le prestazioni, mentre le rappresentazioni nello spazio dei giunti e in quello operativo offrono punti di forza complementari, favorendo rispettivamente la stabilità del controllo e la generalizzazione.

English

The specification of the action space plays a pivotal role in imitation-based robotic manipulation policy learning, fundamentally shaping the optimization landscape of policy learning. While recent advances have focused heavily on scaling training data and model capacity, the choice of action space remains guided by ad-hoc heuristics or legacy designs, leading to an ambiguous understanding of robotic policy design philosophies. To address this ambiguity, we conducted a large-scale and systematic empirical study, confirming that the action space does have significant and complex impacts on robotic policy learning. We dissect the action design space along temporal and spatial axes, facilitating a structured analysis of how these choices govern both policy learnability and control stability. Based on 13,000+ real-world rollouts on a bimanual robot and evaluation on 500+ trained models over four scenarios, we examine the trade-offs between absolute vs. delta representations, and joint-space vs. task-space parameterizations. Our large-scale results suggest that properly designing the policy to predict delta actions consistently improves performance, while joint-space and task-space representations offer complementary strengths, favoring control stability and generalization, respectively.

Demistificare la Progettazione dello Spazio d'Azione per le Politiche di Manipolazione Robotica

Demystifying Action Space Design for Robotic Manipulation Policies

Abstract

Support