La diversité est-elle tout ce dont vous avez besoin pour une manipulation robotique évolutive ?
Is Diversity All You Need for Scalable Robotic Manipulation?
July 8, 2025
papers.authors: Modi Shi, Li Chen, Jin Chen, Yuxiang Lu, Chiming Liu, Guanghui Ren, Ping Luo, Di Huang, Maoqing Yao, Hongyang Li
cs.AI
papers.abstract
La mise à l'échelle des données a conduit à des succès remarquables dans les modèles de base pour le traitement du langage naturel (NLP) et la vision par ordinateur (CV), mais les principes d'une mise à l'échelle efficace des données dans la manipulation robotique restent insuffisamment compris. Dans ce travail, nous étudions le rôle nuancé de la diversité des données dans l'apprentissage robotique en examinant trois dimensions critiques - la tâche (quoi faire), l'embodiment (quel robot utiliser) et l'expert (qui démontre) - remettant en question l'intuition conventionnelle selon laquelle "plus diversifié est meilleur". À travers des expériences approfondies sur diverses plateformes robotiques, nous révélons que (1) la diversité des tâches s'avère plus critique que la quantité de démonstrations par tâche, bénéficiant au transfert de tâches de pré-entraînement variées vers de nouveaux scénarios en aval ; (2) les données de pré-entraînement multi-embodiment sont optionnelles pour le transfert inter-embodiment - les modèles entraînés sur des données de haute qualité d'un seul embodiment peuvent transférer efficacement vers différentes plateformes, montrant une propriété de mise à l'échelle plus souhaitable lors du fine-tuning que les modèles pré-entraînés multi-embodiment ; et (3) la diversité des experts, résultant des préférences opérationnelles individuelles et des variations stochastiques dans les démonstrations humaines, peut être source de confusion pour l'apprentissage des politiques, avec la multimodalité de la vitesse émergeant comme un facteur contributif clé. Sur la base de cette observation, nous proposons une méthode de débiaisage de distribution pour atténuer l'ambiguïté de la vitesse, le modèle GO-1-Pro résultant obtenant des gains de performance substantiels de 15 %, équivalents à l'utilisation de 2,5 fois plus de données de pré-entraînement. Collectivement, ces résultats offrent de nouvelles perspectives et des conseils pratiques sur la manière de mettre à l'échelle efficacement les ensembles de données de manipulation robotique.
English
Data scaling has driven remarkable success in foundation models for Natural
Language Processing (NLP) and Computer Vision (CV), yet the principles of
effective data scaling in robotic manipulation remain insufficiently
understood. In this work, we investigate the nuanced role of data diversity in
robot learning by examining three critical dimensions-task (what to do),
embodiment (which robot to use), and expert (who demonstrates)-challenging the
conventional intuition of "more diverse is better". Throughout extensive
experiments on various robot platforms, we reveal that (1) task diversity
proves more critical than per-task demonstration quantity, benefiting transfer
from diverse pre-training tasks to novel downstream scenarios; (2)
multi-embodiment pre-training data is optional for cross-embodiment
transfer-models trained on high-quality single-embodiment data can efficiently
transfer to different platforms, showing more desirable scaling property during
fine-tuning than multi-embodiment pre-trained models; and (3) expert diversity,
arising from individual operational preferences and stochastic variations in
human demonstrations, can be confounding to policy learning, with velocity
multimodality emerging as a key contributing factor. Based on this insight, we
propose a distribution debiasing method to mitigate velocity ambiguity, the
yielding GO-1-Pro achieves substantial performance gains of 15%, equivalent to
using 2.5 times pre-training data. Collectively, these findings provide new
perspectives and offer practical guidance on how to scale robotic manipulation
datasets effectively.