La Diversità è Tutto Ciò di Cui Hai Bisogno per una Manipolazione Robotica Scalabile?
Is Diversity All You Need for Scalable Robotic Manipulation?
July 8, 2025
Autori: Modi Shi, Li Chen, Jin Chen, Yuxiang Lu, Chiming Liu, Guanghui Ren, Ping Luo, Di Huang, Maoqing Yao, Hongyang Li
cs.AI
Abstract
Il ridimensionamento dei dati ha guidato un successo straordinario nei modelli di base per l'Elaborazione del Linguaggio Naturale (NLP) e la Visione Artificiale (CV), tuttavia i principi di un efficace ridimensionamento dei dati nella manipolazione robotica rimangono insufficientemente compresi. In questo lavoro, indaghiamo il ruolo sfumato della diversità dei dati nell'apprendimento robotico esaminando tre dimensioni critiche: il compito (cosa fare), l'embodiment (quale robot utilizzare) e l'esperto (chi dimostra), sfidando l'intuizione convenzionale che "più diversificato è meglio". Attraverso esperimenti estesi su varie piattaforme robotiche, riveliamo che (1) la diversità dei compiti si dimostra più critica della quantità di dimostrazioni per singolo compito, favorendo il trasferimento da compiti di pre-addestramento diversificati a scenari downstream nuovi; (2) i dati di pre-addestramento multi-embodiment sono opzionali per il trasferimento cross-embodiment—i modelli addestrati su dati di singolo embodiment di alta qualità possono trasferirsi efficientemente su piattaforme diverse, mostrando una proprietà di ridimensionamento più desiderabile durante il fine-tuning rispetto ai modelli pre-addestrati multi-embodiment; e (3) la diversità degli esperti, derivante dalle preferenze operative individuali e dalle variazioni stocastiche nelle dimostrazioni umane, può essere confondente per l'apprendimento delle politiche, con la multimodalità della velocità che emerge come un fattore chiave. Sulla base di questa intuizione, proponiamo un metodo di debiasing della distribuzione per mitigare l'ambiguità della velocità, il risultante GO-1-Pro raggiunge guadagni di prestazioni sostanziali del 15%, equivalenti all'uso di 2,5 volte i dati di pre-addestramento. Collettivamente, questi risultati forniscono nuove prospettive e offrono una guida pratica su come ridimensionare efficacemente i dataset di manipolazione robotica.
English
Data scaling has driven remarkable success in foundation models for Natural
Language Processing (NLP) and Computer Vision (CV), yet the principles of
effective data scaling in robotic manipulation remain insufficiently
understood. In this work, we investigate the nuanced role of data diversity in
robot learning by examining three critical dimensions-task (what to do),
embodiment (which robot to use), and expert (who demonstrates)-challenging the
conventional intuition of "more diverse is better". Throughout extensive
experiments on various robot platforms, we reveal that (1) task diversity
proves more critical than per-task demonstration quantity, benefiting transfer
from diverse pre-training tasks to novel downstream scenarios; (2)
multi-embodiment pre-training data is optional for cross-embodiment
transfer-models trained on high-quality single-embodiment data can efficiently
transfer to different platforms, showing more desirable scaling property during
fine-tuning than multi-embodiment pre-trained models; and (3) expert diversity,
arising from individual operational preferences and stochastic variations in
human demonstrations, can be confounding to policy learning, with velocity
multimodality emerging as a key contributing factor. Based on this insight, we
propose a distribution debiasing method to mitigate velocity ambiguity, the
yielding GO-1-Pro achieves substantial performance gains of 15%, equivalent to
using 2.5 times pre-training data. Collectively, these findings provide new
perspectives and offer practical guidance on how to scale robotic manipulation
datasets effectively.