¿Es la diversidad todo lo que se necesita para la manipulación robótica escalable?
Is Diversity All You Need for Scalable Robotic Manipulation?
July 8, 2025
Autores: Modi Shi, Li Chen, Jin Chen, Yuxiang Lu, Chiming Liu, Guanghui Ren, Ping Luo, Di Huang, Maoqing Yao, Hongyang Li
cs.AI
Resumen
El escalado de datos ha impulsado un éxito notable en los modelos base para el Procesamiento del Lenguaje Natural (PLN) y la Visión por Computadora (CV), sin embargo, los principios del escalado efectivo de datos en la manipulación robótica aún no se comprenden suficientemente. En este trabajo, investigamos el papel matizado de la diversidad de datos en el aprendizaje robótico examinando tres dimensiones críticas: la tarea (qué hacer), la encarnación (qué robot usar) y el experto (quién demuestra), desafiando la intuición convencional de "cuanto más diverso, mejor". A través de extensos experimentos en varias plataformas robóticas, revelamos que (1) la diversidad de tareas resulta más crítica que la cantidad de demostraciones por tarea, beneficiando la transferencia desde tareas de preentrenamiento diversas a escenarios novedosos posteriores; (2) los datos de preentrenamiento multi-encarnación son opcionales para la transferencia entre encarnaciones: los modelos entrenados con datos de alta calidad de una sola encarnación pueden transferirse eficientemente a diferentes plataformas, mostrando una propiedad de escalado más deseable durante el ajuste fino que los modelos preentrenados con multi-encarnación; y (3) la diversidad de expertos, derivada de las preferencias operativas individuales y las variaciones estocásticas en las demostraciones humanas, puede ser confusa para el aprendizaje de políticas, con la multimodalidad de velocidad emergiendo como un factor clave contribuyente. Basándonos en esta visión, proponemos un método de corrección de distribución para mitigar la ambigüedad de velocidad, lo que permite que GO-1-Pro logre ganancias sustanciales de rendimiento del 15%, equivalente a usar 2.5 veces más datos de preentrenamiento. Colectivamente, estos hallazgos proporcionan nuevas perspectivas y ofrecen orientación práctica sobre cómo escalar efectivamente los conjuntos de datos de manipulación robótica.
English
Data scaling has driven remarkable success in foundation models for Natural
Language Processing (NLP) and Computer Vision (CV), yet the principles of
effective data scaling in robotic manipulation remain insufficiently
understood. In this work, we investigate the nuanced role of data diversity in
robot learning by examining three critical dimensions-task (what to do),
embodiment (which robot to use), and expert (who demonstrates)-challenging the
conventional intuition of "more diverse is better". Throughout extensive
experiments on various robot platforms, we reveal that (1) task diversity
proves more critical than per-task demonstration quantity, benefiting transfer
from diverse pre-training tasks to novel downstream scenarios; (2)
multi-embodiment pre-training data is optional for cross-embodiment
transfer-models trained on high-quality single-embodiment data can efficiently
transfer to different platforms, showing more desirable scaling property during
fine-tuning than multi-embodiment pre-trained models; and (3) expert diversity,
arising from individual operational preferences and stochastic variations in
human demonstrations, can be confounding to policy learning, with velocity
multimodality emerging as a key contributing factor. Based on this insight, we
propose a distribution debiasing method to mitigate velocity ambiguity, the
yielding GO-1-Pro achieves substantial performance gains of 15%, equivalent to
using 2.5 times pre-training data. Collectively, these findings provide new
perspectives and offer practical guidance on how to scale robotic manipulation
datasets effectively.