La Diversità è Tutto Ciò di Cui Hai Bisogno per una Manipolazione Robotica Scalabile?

Abstract

Il ridimensionamento dei dati ha guidato un successo straordinario nei modelli di base per l'Elaborazione del Linguaggio Naturale (NLP) e la Visione Artificiale (CV), tuttavia i principi di un efficace ridimensionamento dei dati nella manipolazione robotica rimangono insufficientemente compresi. In questo lavoro, indaghiamo il ruolo sfumato della diversità dei dati nell'apprendimento robotico esaminando tre dimensioni critiche: il compito (cosa fare), l'embodiment (quale robot utilizzare) e l'esperto (chi dimostra), sfidando l'intuizione convenzionale che "più diversificato è meglio". Attraverso esperimenti estesi su varie piattaforme robotiche, riveliamo che (1) la diversità dei compiti si dimostra più critica della quantità di dimostrazioni per singolo compito, favorendo il trasferimento da compiti di pre-addestramento diversificati a scenari downstream nuovi; (2) i dati di pre-addestramento multi-embodiment sono opzionali per il trasferimento cross-embodiment—i modelli addestrati su dati di singolo embodiment di alta qualità possono trasferirsi efficientemente su piattaforme diverse, mostrando una proprietà di ridimensionamento più desiderabile durante il fine-tuning rispetto ai modelli pre-addestrati multi-embodiment; e (3) la diversità degli esperti, derivante dalle preferenze operative individuali e dalle variazioni stocastiche nelle dimostrazioni umane, può essere confondente per l'apprendimento delle politiche, con la multimodalità della velocità che emerge come un fattore chiave. Sulla base di questa intuizione, proponiamo un metodo di debiasing della distribuzione per mitigare l'ambiguità della velocità, il risultante GO-1-Pro raggiunge guadagni di prestazioni sostanziali del 15%, equivalenti all'uso di 2,5 volte i dati di pre-addestramento. Collettivamente, questi risultati forniscono nuove prospettive e offrono una guida pratica su come ridimensionare efficacemente i dataset di manipolazione robotica.

English

Data scaling has driven remarkable success in foundation models for Natural Language Processing (NLP) and Computer Vision (CV), yet the principles of effective data scaling in robotic manipulation remain insufficiently understood. In this work, we investigate the nuanced role of data diversity in robot learning by examining three critical dimensions-task (what to do), embodiment (which robot to use), and expert (who demonstrates)-challenging the conventional intuition of "more diverse is better". Throughout extensive experiments on various robot platforms, we reveal that (1) task diversity proves more critical than per-task demonstration quantity, benefiting transfer from diverse pre-training tasks to novel downstream scenarios; (2) multi-embodiment pre-training data is optional for cross-embodiment transfer-models trained on high-quality single-embodiment data can efficiently transfer to different platforms, showing more desirable scaling property during fine-tuning than multi-embodiment pre-trained models; and (3) expert diversity, arising from individual operational preferences and stochastic variations in human demonstrations, can be confounding to policy learning, with velocity multimodality emerging as a key contributing factor. Based on this insight, we propose a distribution debiasing method to mitigate velocity ambiguity, the yielding GO-1-Pro achieves substantial performance gains of 15%, equivalent to using 2.5 times pre-training data. Collectively, these findings provide new perspectives and offer practical guidance on how to scale robotic manipulation datasets effectively.

La Diversità è Tutto Ciò di Cui Hai Bisogno per una Manipolazione Robotica Scalabile?

Is Diversity All You Need for Scalable Robotic Manipulation?

Abstract

Support