Aprendizaje de Atajos en Políticas de Robots Generalistas: El Papel de la Diversidad y Fragmentación del Conjunto de Datos
Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation
August 8, 2025
Autores: Youguang Xing, Xu Luo, Junlin Xie, Lianli Gao, Hengtao Shen, Jingkuan Song
cs.AI
Resumen
Las políticas de robots generalistas entrenadas en conjuntos de datos a gran escala, como Open X-Embodiment (OXE), demuestran un rendimiento sólido en una amplia gama de tareas. Sin embargo, a menudo tienen dificultades para generalizar más allá de la distribución de sus datos de entrenamiento. En este artículo, investigamos la causa subyacente de esta capacidad limitada de generalización. Identificamos el aprendizaje de atajos —la dependencia de características irrelevantes para la tarea— como un obstáculo clave para la generalización. A través de un análisis teórico y empírico exhaustivo, descubrimos dos contribuyentes principales al aprendizaje de atajos: (1) la diversidad limitada dentro de los subconjuntos de datos individuales, y (2) las disparidades distribucionales significativas entre los subconjuntos de datos, lo que lleva a la fragmentación del conjunto de datos. Estos problemas surgen de la estructura inherente de los conjuntos de datos a gran escala como OXE, que generalmente están compuestos por múltiples subconjuntos de datos recopilados de manera independiente en diversos entornos y encarnaciones. Nuestros hallazgos proporcionan insights críticos sobre las estrategias de recopilación de datos que pueden reducir el aprendizaje de atajos y mejorar la capacidad de generalización de las políticas de robots generalistas. Además, en escenarios donde la adquisición de nuevos datos a gran escala es poco práctica, demostramos que las estrategias de aumento de datos robóticos cuidadosamente seleccionadas pueden reducir efectivamente el aprendizaje de atajos en conjuntos de datos existentes fuera de línea, mejorando así las capacidades de generalización de las políticas de robots generalistas, por ejemplo, pi_0, tanto en entornos de simulación como en el mundo real. Más información en https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.
English
Generalist robot policies trained on large-scale datasets such as Open
X-Embodiment (OXE) demonstrate strong performance across a wide range of tasks.
However, they often struggle to generalize beyond the distribution of their
training data. In this paper, we investigate the underlying cause of this
limited generalization capability. We identify shortcut learning -- the
reliance on task-irrelevant features -- as a key impediment to generalization.
Through comprehensive theoretical and empirical analysis, we uncover two
primary contributors to shortcut learning: (1) limited diversity within
individual sub-datasets, and (2) significant distributional disparities across
sub-datasets, leading to dataset fragmentation. These issues arise from the
inherent structure of large-scale datasets like OXE, which are typically
composed of multiple sub-datasets collected independently across varied
environments and embodiments. Our findings provide critical insights into
dataset collection strategies that can reduce shortcut learning and enhance the
generalization ability of generalist robot policies. Moreover, in scenarios
where acquiring new large-scale data is impractical, we demonstrate that
carefully selected robotic data augmentation strategies can effectively reduce
shortcut learning in existing offline datasets, thereby improving
generalization capabilities of generalist robot policies, e.g., pi_0, in
both simulation and real-world environments. More information at
https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.