Ist Vielfalt alles, was für skalierbare robotische Manipulation benötigt wird?
Is Diversity All You Need for Scalable Robotic Manipulation?
July 8, 2025
papers.authors: Modi Shi, Li Chen, Jin Chen, Yuxiang Lu, Chiming Liu, Guanghui Ren, Ping Luo, Di Huang, Maoqing Yao, Hongyang Li
cs.AI
papers.abstract
Die Skalierung von Daten hat bemerkenswerte Erfolge bei Foundation-Modellen für Natural Language Processing (NLP) und Computer Vision (CV) vorangetrieben, doch die Prinzipien einer effektiven Datenskalierung in der robotergestützten Manipulation sind noch unzureichend verstanden. In dieser Arbeit untersuchen wir die differenzierte Rolle der Datenvielfalt im Robotik-Lernen, indem wir drei kritische Dimensionen betrachten – Aufgabe (was zu tun ist), Verkörperung (welcher Roboter verwendet wird) und Experte (wer demonstriert) – und damit die konventionelle Intuition „je vielfältiger, desto besser“ hinterfragen. In umfangreichen Experimenten auf verschiedenen Robotikplattformen zeigen wir, dass (1) Aufgabenvielfalt entscheidender ist als die Anzahl der Demonstrationen pro Aufgabe, was den Transfer von diversen Vorab-Trainingsaufgaben auf neue nachgelagerte Szenarien begünstigt; (2) Multi-Verkörperungs-Vorab-Trainingsdaten für den Transfer zwischen verschiedenen Verkörperungen optional sind – Modelle, die mit hochwertigen Einzel-Verkörperungsdaten trainiert wurden, können effizient auf verschiedene Plattformen übertragen werden und zeigen während des Feinabstimmens eine wünschenswertere Skalierungseigenschaft als Modelle, die mit Multi-Verkörperungsdaten vorab trainiert wurden; und (3) Expertenvielfalt, die sich aus individuellen Betriebspräferenzen und stochastischen Variationen in menschlichen Demonstrationen ergibt, das Policy-Lernen verwirren kann, wobei die Geschwindigkeitsmultimodalität als ein wesentlicher Faktor hervortritt. Basierend auf dieser Erkenntnis schlagen wir eine Verteilungsentzerrungsmethode vor, um die Geschwindigkeitsambiguität zu mildern, wodurch das resultierende GO-1-Pro eine erhebliche Leistungssteigerung von 15 % erzielt, was der Verwendung des 2,5-fachen Vorab-Trainingsdatensatzes entspricht. Zusammengenommen bieten diese Erkenntnisse neue Perspektiven und praktische Leitlinien, wie man Datensätze für robotergestützte Manipulation effektiv skalieren kann.
English
Data scaling has driven remarkable success in foundation models for Natural
Language Processing (NLP) and Computer Vision (CV), yet the principles of
effective data scaling in robotic manipulation remain insufficiently
understood. In this work, we investigate the nuanced role of data diversity in
robot learning by examining three critical dimensions-task (what to do),
embodiment (which robot to use), and expert (who demonstrates)-challenging the
conventional intuition of "more diverse is better". Throughout extensive
experiments on various robot platforms, we reveal that (1) task diversity
proves more critical than per-task demonstration quantity, benefiting transfer
from diverse pre-training tasks to novel downstream scenarios; (2)
multi-embodiment pre-training data is optional for cross-embodiment
transfer-models trained on high-quality single-embodiment data can efficiently
transfer to different platforms, showing more desirable scaling property during
fine-tuning than multi-embodiment pre-trained models; and (3) expert diversity,
arising from individual operational preferences and stochastic variations in
human demonstrations, can be confounding to policy learning, with velocity
multimodality emerging as a key contributing factor. Based on this insight, we
propose a distribution debiasing method to mitigate velocity ambiguity, the
yielding GO-1-Pro achieves substantial performance gains of 15%, equivalent to
using 2.5 times pre-training data. Collectively, these findings provide new
perspectives and offer practical guidance on how to scale robotic manipulation
datasets effectively.