Lernen, alles zu greifen, durch das Spielen mit zufälligen Spielzeugen
Learning to Grasp Anything by Playing with Random Toys
October 14, 2025
papers.authors: Dantong Niu, Yuvan Sharma, Baifeng Shi, Rachel Ding, Matteo Gioia, Haoru Xue, Henry Tsai, Konstantinos Kallidromitis, Anirudh Pai, Shankar Shastry, Trevor Darrell, Jitendra Malik, Roei Herzig
cs.AI
papers.abstract
Roboter-Manipulationsstrategien haben oft Schwierigkeiten, sich auf neue Objekte zu verallgemeinern, was ihre praktische Anwendbarkeit einschränkt. Im Gegensatz dazu zeigt die Kognitionswissenschaft, dass Kinder generalisierbare geschickte Manipulationsfähigkeiten entwickeln, indem sie eine kleine Auswahl einfacher Spielzeuge meistern und dieses Wissen dann auf komplexere Gegenstände anwenden. Inspiriert davon untersuchen wir, ob ähnliche Verallgemeinerungsfähigkeiten auch bei Robotern erreicht werden können. Unsere Ergebnisse zeigen, dass Roboter generalisierbares Greifen lernen können, indem sie zufällig zusammengesetzte Objekte verwenden, die aus nur vier Grundformen bestehen: Kugeln, Quader, Zylinder und Ringe. Wir demonstrieren, dass das Training mit diesen „Spielzeugen“ eine robuste Verallgemeinerung auf reale Objekte ermöglicht und eine starke Zero-Shot-Leistung erzielt. Entscheidend ist, dass der Schlüssel zu dieser Verallgemeinerung eine objektzentrierte visuelle Repräsentation ist, die durch unseren vorgeschlagenen Detektions-Pooling-Mechanismus induziert wird. Sowohl in der Simulation als auch auf physischen Robotern getestet, erreicht unser Modell eine Erfolgsrate von 67 % beim Greifen im YCB-Datensatz und übertrifft damit state-of-the-art Ansätze, die auf deutlich mehr domänenspezifischen Daten basieren. Wir untersuchen weiterhin, wie sich die Zero-Shot-Verallgemeinerungsleistung skaliert, indem wir die Anzahl und Vielfalt der Trainingsspielzeuge sowie die Demonstrationen pro Spielzeug variieren. Wir glauben, dass diese Arbeit einen vielversprechenden Weg für skalierbares und generalisierbares Lernen in der Roboter-Manipulation bietet. Demonstrationsvideos, Code, Checkpoints und unser Datensatz sind auf unserer Projektseite verfügbar: https://lego-grasp.github.io/.
English
Robotic manipulation policies often struggle to generalize to novel objects,
limiting their real-world utility. In contrast, cognitive science suggests that
children develop generalizable dexterous manipulation skills by mastering a
small set of simple toys and then applying that knowledge to more complex
items. Inspired by this, we study if similar generalization capabilities can
also be achieved by robots. Our results indicate robots can learn generalizable
grasping using randomly assembled objects that are composed from just four
shape primitives: spheres, cuboids, cylinders, and rings. We show that training
on these "toys" enables robust generalization to real-world objects, yielding
strong zero-shot performance. Crucially, we find the key to this generalization
is an object-centric visual representation induced by our proposed detection
pooling mechanism. Evaluated in both simulation and on physical robots, our
model achieves a 67% real-world grasping success rate on the YCB dataset,
outperforming state-of-the-art approaches that rely on substantially more
in-domain data. We further study how zero-shot generalization performance
scales by varying the number and diversity of training toys and the
demonstrations per toy. We believe this work offers a promising path to
scalable and generalizable learning in robotic manipulation. Demonstration
videos, code, checkpoints and our dataset are available on our project page:
https://lego-grasp.github.io/ .