Краткосрочное обучение в универсальных стратегиях роботов: роль разнообразия и фрагментации данных
Shortcut Learning in Generalist Robot Policies: The Role of Dataset Diversity and Fragmentation
August 8, 2025
Авторы: Youguang Xing, Xu Luo, Junlin Xie, Lianli Gao, Hengtao Shen, Jingkuan Song
cs.AI
Аннотация
Универсальные политики роботов, обученные на крупномасштабных наборах данных, таких как Open X-Embodiment (OXE), демонстрируют высокую производительность в широком спектре задач. Однако они часто испытывают трудности с обобщением за пределы распределения их обучающих данных. В данной статье мы исследуем основную причину этой ограниченной способности к обобщению. Мы определяем "обучение по упрощённым признакам" (shortcut learning) — зависимость от нерелевантных для задачи признаков — как ключевое препятствие для обобщения. Благодаря всестороннему теоретическому и эмпирическому анализу мы выявляем два основных фактора, способствующих такому обучению: (1) ограниченное разнообразие внутри отдельных поднаборов данных и (2) значительные различия в распределении между поднаборами данных, приводящие к фрагментации набора данных. Эти проблемы возникают из-за присущей структуры крупномасштабных наборов данных, таких как OXE, которые обычно состоят из нескольких поднаборов, собранных независимо в различных средах и воплощениях. Наши результаты предоставляют важные инсайты для стратегий сбора данных, которые могут уменьшить обучение по упрощённым признакам и повысить способность к обобщению универсальных политик роботов. Более того, в сценариях, где сбор новых крупномасштабных данных непрактичен, мы показываем, что тщательно подобранные стратегии аугментации роботизированных данных могут эффективно уменьшить обучение по упрощённым признакам в существующих оффлайн-наборах данных, тем самым улучшая способность к обобщению универсальных политик роботов, например, π₀, как в симуляции, так и в реальных условиях. Дополнительная информация доступна по ссылке: https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.
English
Generalist robot policies trained on large-scale datasets such as Open
X-Embodiment (OXE) demonstrate strong performance across a wide range of tasks.
However, they often struggle to generalize beyond the distribution of their
training data. In this paper, we investigate the underlying cause of this
limited generalization capability. We identify shortcut learning -- the
reliance on task-irrelevant features -- as a key impediment to generalization.
Through comprehensive theoretical and empirical analysis, we uncover two
primary contributors to shortcut learning: (1) limited diversity within
individual sub-datasets, and (2) significant distributional disparities across
sub-datasets, leading to dataset fragmentation. These issues arise from the
inherent structure of large-scale datasets like OXE, which are typically
composed of multiple sub-datasets collected independently across varied
environments and embodiments. Our findings provide critical insights into
dataset collection strategies that can reduce shortcut learning and enhance the
generalization ability of generalist robot policies. Moreover, in scenarios
where acquiring new large-scale data is impractical, we demonstrate that
carefully selected robotic data augmentation strategies can effectively reduce
shortcut learning in existing offline datasets, thereby improving
generalization capabilities of generalist robot policies, e.g., pi_0, in
both simulation and real-world environments. More information at
https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.