ChatPaper.aiChatPaper

Aprender a agarrar cualquier cosa jugando con juguetes aleatorios

Learning to Grasp Anything by Playing with Random Toys

October 14, 2025
Autores: Dantong Niu, Yuvan Sharma, Baifeng Shi, Rachel Ding, Matteo Gioia, Haoru Xue, Henry Tsai, Konstantinos Kallidromitis, Anirudh Pai, Shankar Shastry, Trevor Darrell, Jitendra Malik, Roei Herzig
cs.AI

Resumen

Las políticas de manipulación robótica a menudo tienen dificultades para generalizar a objetos novedosos, lo que limita su utilidad en el mundo real. En contraste, la ciencia cognitiva sugiere que los niños desarrollan habilidades de manipulación diestra y generalizable al dominar un pequeño conjunto de juguetes simples y luego aplicar ese conocimiento a objetos más complejos. Inspirados por esto, estudiamos si capacidades de generalización similares también pueden ser alcanzadas por robots. Nuestros resultados indican que los robots pueden aprender a agarrar de manera generalizable utilizando objetos ensamblados al azar que están compuestos por solo cuatro primitivas de forma: esferas, cuboides, cilindros y anillos. Demostramos que el entrenamiento con estos "juguetes" permite una generalización robusta a objetos del mundo real, obteniendo un fuerte rendimiento de cero disparos. Crucialmente, encontramos que la clave para esta generalización es una representación visual centrada en el objeto inducida por nuestro mecanismo propuesto de agrupación de detección. Evaluado tanto en simulación como en robots físicos, nuestro modelo alcanza una tasa de éxito del 67% en el agarre en el mundo real en el conjunto de datos YCB, superando enfoques de última generación que dependen de datos sustancialmente más específicos del dominio. Además, estudiamos cómo escala el rendimiento de generalización de cero disparos al variar el número y la diversidad de juguetes de entrenamiento y las demostraciones por juguete. Creemos que este trabajo ofrece un camino prometedor hacia el aprendizaje escalable y generalizable en la manipulación robótica. Videos de demostración, código, puntos de control y nuestro conjunto de datos están disponibles en nuestra página del proyecto: https://lego-grasp.github.io/.
English
Robotic manipulation policies often struggle to generalize to novel objects, limiting their real-world utility. In contrast, cognitive science suggests that children develop generalizable dexterous manipulation skills by mastering a small set of simple toys and then applying that knowledge to more complex items. Inspired by this, we study if similar generalization capabilities can also be achieved by robots. Our results indicate robots can learn generalizable grasping using randomly assembled objects that are composed from just four shape primitives: spheres, cuboids, cylinders, and rings. We show that training on these "toys" enables robust generalization to real-world objects, yielding strong zero-shot performance. Crucially, we find the key to this generalization is an object-centric visual representation induced by our proposed detection pooling mechanism. Evaluated in both simulation and on physical robots, our model achieves a 67% real-world grasping success rate on the YCB dataset, outperforming state-of-the-art approaches that rely on substantially more in-domain data. We further study how zero-shot generalization performance scales by varying the number and diversity of training toys and the demonstrations per toy. We believe this work offers a promising path to scalable and generalizable learning in robotic manipulation. Demonstration videos, code, checkpoints and our dataset are available on our project page: https://lego-grasp.github.io/ .
PDF42October 16, 2025