A Diversidade é Tudo o que Você Precisa para Manipulação Robótica Escalável?
Is Diversity All You Need for Scalable Robotic Manipulation?
July 8, 2025
Autores: Modi Shi, Li Chen, Jin Chen, Yuxiang Lu, Chiming Liu, Guanghui Ren, Ping Luo, Di Huang, Maoqing Yao, Hongyang Li
cs.AI
Resumo
A escalabilidade de dados tem impulsionado sucessos notáveis em modelos de base para Processamento de Linguagem Natural (PLN) e Visão Computacional (VC), mas os princípios de uma escalabilidade eficaz de dados na manipulação robótica ainda não são suficientemente compreendidos. Neste trabalho, investigamos o papel sutil da diversidade de dados no aprendizado de robôs, examinando três dimensões críticas—tarefa (o que fazer), embodiment (qual robô usar) e especialista (quem demonstra)—desafiando a intuição convencional de que "mais diverso é melhor". Através de extensos experimentos em várias plataformas robóticas, revelamos que (1) a diversidade de tarefas se mostra mais crítica do que a quantidade de demonstrações por tarefa, beneficiando a transferência de tarefas diversas de pré-treinamento para cenários subsequentes novos; (2) dados de pré-treinamento multi-embodiment são opcionais para transferência entre embodiments—modelos treinados com dados de alta qualidade de um único embodiment podem transferir eficientemente para diferentes plataformas, mostrando uma propriedade de escalabilidade mais desejável durante o ajuste fino do que modelos pré-treinados com multi-embodiment; e (3) a diversidade de especialistas, decorrente de preferências operacionais individuais e variações estocásticas em demonstrações humanas, pode ser confusa para o aprendizado de políticas, com a multimodalidade de velocidade emergindo como um fator contribuinte chave. Com base nessa percepção, propomos um método de desviesamento de distribuição para mitigar a ambiguidade de velocidade, resultando no GO-1-Pro, que alcança ganhos substanciais de desempenho de 15%, equivalentes ao uso de 2,5 vezes mais dados de pré-treinamento. Coletivamente, essas descobertas fornecem novas perspectivas e orientações práticas sobre como escalar efetivamente conjuntos de dados de manipulação robótica.
English
Data scaling has driven remarkable success in foundation models for Natural
Language Processing (NLP) and Computer Vision (CV), yet the principles of
effective data scaling in robotic manipulation remain insufficiently
understood. In this work, we investigate the nuanced role of data diversity in
robot learning by examining three critical dimensions-task (what to do),
embodiment (which robot to use), and expert (who demonstrates)-challenging the
conventional intuition of "more diverse is better". Throughout extensive
experiments on various robot platforms, we reveal that (1) task diversity
proves more critical than per-task demonstration quantity, benefiting transfer
from diverse pre-training tasks to novel downstream scenarios; (2)
multi-embodiment pre-training data is optional for cross-embodiment
transfer-models trained on high-quality single-embodiment data can efficiently
transfer to different platforms, showing more desirable scaling property during
fine-tuning than multi-embodiment pre-trained models; and (3) expert diversity,
arising from individual operational preferences and stochastic variations in
human demonstrations, can be confounding to policy learning, with velocity
multimodality emerging as a key contributing factor. Based on this insight, we
propose a distribution debiasing method to mitigate velocity ambiguity, the
yielding GO-1-Pro achieves substantial performance gains of 15%, equivalent to
using 2.5 times pre-training data. Collectively, these findings provide new
perspectives and offer practical guidance on how to scale robotic manipulation
datasets effectively.