Apprentissage par raccourci dans les politiques de robots généralistes : Rôle de la diversité et de la fragmentation des jeux de données
Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation
August 8, 2025
papers.authors: Youguang Xing, Xu Luo, Junlin Xie, Lianli Gao, Hengtao Shen, Jingkuan Song
cs.AI
papers.abstract
Les politiques robotiques généralistes entraînées sur des ensembles de données à grande échelle tels que Open X-Embodiment (OXE) démontrent des performances solides sur une large gamme de tâches. Cependant, elles peinent souvent à généraliser au-delà de la distribution de leurs données d'entraînement. Dans cet article, nous étudions la cause sous-jacente de cette capacité de généralisation limitée. Nous identifions l'apprentissage par raccourci — la dépendance à des caractéristiques non pertinentes pour la tâche — comme un obstacle majeur à la généralisation. À travers une analyse théorique et empirique approfondie, nous mettons en lumière deux contributeurs principaux à l'apprentissage par raccourci : (1) la diversité limitée au sein des sous-ensembles de données individuels, et (2) les disparités distributionnelles significatives entre les sous-ensembles de données, conduisant à une fragmentation des ensembles de données. Ces problèmes découlent de la structure inhérente des ensembles de données à grande échelle comme OXE, qui sont généralement composés de multiples sous-ensembles de données collectés indépendamment dans divers environnements et incarnations. Nos résultats fournissent des insights critiques sur les stratégies de collecte de données qui peuvent réduire l'apprentissage par raccourci et améliorer la capacité de généralisation des politiques robotiques généralistes. De plus, dans les scénarios où l'acquisition de nouvelles données à grande échelle est impraticable, nous démontrons que des stratégies d'augmentation de données robotiques soigneusement sélectionnées peuvent efficacement réduire l'apprentissage par raccourci dans les ensembles de données hors ligne existants, améliorant ainsi les capacités de généralisation des politiques robotiques généralistes, par exemple pi_0, à la fois en simulation et dans des environnements réels. Plus d'informations sur https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.
English
Generalist robot policies trained on large-scale datasets such as Open
X-Embodiment (OXE) demonstrate strong performance across a wide range of tasks.
However, they often struggle to generalize beyond the distribution of their
training data. In this paper, we investigate the underlying cause of this
limited generalization capability. We identify shortcut learning -- the
reliance on task-irrelevant features -- as a key impediment to generalization.
Through comprehensive theoretical and empirical analysis, we uncover two
primary contributors to shortcut learning: (1) limited diversity within
individual sub-datasets, and (2) significant distributional disparities across
sub-datasets, leading to dataset fragmentation. These issues arise from the
inherent structure of large-scale datasets like OXE, which are typically
composed of multiple sub-datasets collected independently across varied
environments and embodiments. Our findings provide critical insights into
dataset collection strategies that can reduce shortcut learning and enhance the
generalization ability of generalist robot policies. Moreover, in scenarios
where acquiring new large-scale data is impractical, we demonstrate that
carefully selected robotic data augmentation strategies can effectively reduce
shortcut learning in existing offline datasets, thereby improving
generalization capabilities of generalist robot policies, e.g., pi_0, in
both simulation and real-world environments. More information at
https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.