Aprendizado por Atalhos em Políticas de Robôs Generalistas: O Papel da Diversidade e Fragmentação do Conjunto de Dados
Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation
August 8, 2025
Autores: Youguang Xing, Xu Luo, Junlin Xie, Lianli Gao, Hengtao Shen, Jingkuan Song
cs.AI
Resumo
Políticas de robôs generalistas treinadas em grandes conjuntos de dados, como o Open X-Embodiment (OXE), demonstram um forte desempenho em uma ampla gama de tarefas. No entanto, elas frequentemente lutam para generalizar além da distribuição de seus dados de treinamento. Neste artigo, investigamos a causa subjacente dessa capacidade limitada de generalização. Identificamos o aprendizado por atalhos — a dependência de características irrelevantes para a tarefa — como um impedimento chave à generalização. Por meio de uma análise teórica e empírica abrangente, descobrimos dois contribuintes primários para o aprendizado por atalhos: (1) diversidade limitada dentro de subconjuntos de dados individuais e (2) disparidades distribucionais significativas entre subconjuntos de dados, levando à fragmentação do conjunto de dados. Esses problemas surgem da estrutura inerente de grandes conjuntos de dados como o OXE, que são tipicamente compostos por múltiplos subconjuntos de dados coletados de forma independente em diversos ambientes e embodiamentos. Nossas descobertas fornecem insights críticos sobre estratégias de coleta de dados que podem reduzir o aprendizado por atalhos e aprimorar a capacidade de generalização de políticas de robôs generalistas. Além disso, em cenários onde a aquisição de novos dados em larga escala é impraticável, demonstramos que estratégias de aumento de dados robóticos cuidadosamente selecionadas podem efetivamente reduzir o aprendizado por atalhos em conjuntos de dados offline existentes, melhorando assim as capacidades de generalização de políticas de robôs generalistas, por exemplo, pi_0, tanto em ambientes de simulação quanto no mundo real. Mais informações em https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.
English
Generalist robot policies trained on large-scale datasets such as Open
X-Embodiment (OXE) demonstrate strong performance across a wide range of tasks.
However, they often struggle to generalize beyond the distribution of their
training data. In this paper, we investigate the underlying cause of this
limited generalization capability. We identify shortcut learning -- the
reliance on task-irrelevant features -- as a key impediment to generalization.
Through comprehensive theoretical and empirical analysis, we uncover two
primary contributors to shortcut learning: (1) limited diversity within
individual sub-datasets, and (2) significant distributional disparities across
sub-datasets, leading to dataset fragmentation. These issues arise from the
inherent structure of large-scale datasets like OXE, which are typically
composed of multiple sub-datasets collected independently across varied
environments and embodiments. Our findings provide critical insights into
dataset collection strategies that can reduce shortcut learning and enhance the
generalization ability of generalist robot policies. Moreover, in scenarios
where acquiring new large-scale data is impractical, we demonstrate that
carefully selected robotic data augmentation strategies can effectively reduce
shortcut learning in existing offline datasets, thereby improving
generalization capabilities of generalist robot policies, e.g., pi_0, in
both simulation and real-world environments. More information at
https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.