Is Diversiteit Alles Wat Nodig Is voor Schaalbare Robotmanipulatie?
Is Diversity All You Need for Scalable Robotic Manipulation?
July 8, 2025
Auteurs: Modi Shi, Li Chen, Jin Chen, Yuxiang Lu, Chiming Liu, Guanghui Ren, Ping Luo, Di Huang, Maoqing Yao, Hongyang Li
cs.AI
Samenvatting
Dataschaling heeft opmerkelijke successen geboekt bij foundation-modellen voor Natural Language Processing (NLP) en Computer Vision (CV), maar de principes van effectieve dataschaling bij robotmanipulatie zijn nog onvoldoende begrepen. In dit werk onderzoeken we de genuanceerde rol van datadiversiteit in robotleren door drie kritische dimensies te onderzoeken: taak (wat te doen), embodiment (welke robot te gebruiken) en expert (wie demonstreert), waarbij we het conventionele idee van "hoe diverser, hoe beter" uitdagen. Door uitgebreide experimenten op verschillende robotplatforms onthullen we dat (1) taakdiversiteit belangrijker blijkt dan de hoeveelheid demonstraties per taak, wat voordelen biedt bij de overdracht van diverse pre-trainingtaken naar nieuwe downstreamscenario's; (2) multi-embodiment pre-trainingsdata optioneel is voor cross-embodiment overdracht—modellen getraind op hoogwaardige single-embodimentdata kunnen efficiënt overgedragen worden naar verschillende platforms, waarbij ze tijdens fine-tuning een wenselijkere schaaleigenschap vertonen dan multi-embodiment pre-getrainde modellen; en (3) expertdiversiteit, voortkomend uit individuele operationele voorkeuren en stochastische variaties in menselijke demonstraties, verwarrend kan zijn voor beleidsleren, waarbij snelheidsmultimodaliteit naar voren komt als een belangrijke bijdragende factor. Op basis van dit inzicht stellen we een distributie-debiasingmethode voor om snelheidsambiguïteit te verminderen, waarbij de resulterende GO-1-Pro aanzienlijke prestatieverbeteringen van 15% behaalt, wat overeenkomt met het gebruik van 2,5 keer zoveel pre-trainingsdata. Collectief bieden deze bevindingen nieuwe perspectieven en praktische richtlijnen over hoe robotmanipulatiedatasets effectief geschaald kunnen worden.
English
Data scaling has driven remarkable success in foundation models for Natural
Language Processing (NLP) and Computer Vision (CV), yet the principles of
effective data scaling in robotic manipulation remain insufficiently
understood. In this work, we investigate the nuanced role of data diversity in
robot learning by examining three critical dimensions-task (what to do),
embodiment (which robot to use), and expert (who demonstrates)-challenging the
conventional intuition of "more diverse is better". Throughout extensive
experiments on various robot platforms, we reveal that (1) task diversity
proves more critical than per-task demonstration quantity, benefiting transfer
from diverse pre-training tasks to novel downstream scenarios; (2)
multi-embodiment pre-training data is optional for cross-embodiment
transfer-models trained on high-quality single-embodiment data can efficiently
transfer to different platforms, showing more desirable scaling property during
fine-tuning than multi-embodiment pre-trained models; and (3) expert diversity,
arising from individual operational preferences and stochastic variations in
human demonstrations, can be confounding to policy learning, with velocity
multimodality emerging as a key contributing factor. Based on this insight, we
propose a distribution debiasing method to mitigate velocity ambiguity, the
yielding GO-1-Pro achieves substantial performance gains of 15%, equivalent to
using 2.5 times pre-training data. Collectively, these findings provide new
perspectives and offer practical guidance on how to scale robotic manipulation
datasets effectively.