Объектно-ориентированные представления улучшают обобщение стратегий в задачах манипуляции роботов
Object-Centric Representations Improve Policy Generalization in Robot Manipulation
May 16, 2025
Авторы: Alexandre Chapin, Bruno Machado, Emmanuel Dellandrea, Liming Chen
cs.AI
Аннотация
Визуальные представления играют ключевую роль в способности к обучению и обобщению для политик манипуляции роботов. Хотя существующие методы опираются на глобальные или плотные признаки, такие представления часто смешивают информацию, релевантную и нерелевантную задаче, что ограничивает устойчивость при сдвигах распределения. В данной работе мы исследуем объектно-ориентированные представления (OCR) как структурированную альтернативу, которая сегментирует визуальный вход на конечный набор сущностей, вводя индуктивные предпосылки, которые более естественно соответствуют задачам манипуляции. Мы сравниваем различные визуальные кодировщики — объектно-ориентированные, глобальные и плотные методы — на наборе симулированных и реальных задач манипуляции, варьирующихся от простых до сложных, и оцениваем их способность к обобщению в различных визуальных условиях, включая изменения освещения, текстуры и наличие отвлекающих элементов. Наши результаты показывают, что политики на основе OCR превосходят плотные и глобальные представления в условиях обобщения, даже без предварительного обучения, специфичного для задачи. Эти выводы свидетельствуют о том, что OCR является перспективным направлением для разработки визуальных систем, эффективно обобщающих в динамичных, реальных роботизированных средах.
English
Visual representations are central to the learning and generalization
capabilities of robotic manipulation policies. While existing methods rely on
global or dense features, such representations often entangle task-relevant and
irrelevant scene information, limiting robustness under distribution shifts. In
this work, we investigate object-centric representations (OCR) as a structured
alternative that segments visual input into a finished set of entities,
introducing inductive biases that align more naturally with manipulation tasks.
We benchmark a range of visual encoders-object-centric, global and dense
methods-across a suite of simulated and real-world manipulation tasks ranging
from simple to complex, and evaluate their generalization under diverse visual
conditions including changes in lighting, texture, and the presence of
distractors. Our findings reveal that OCR-based policies outperform dense and
global representations in generalization settings, even without task-specific
pretraining. These insights suggest that OCR is a promising direction for
designing visual systems that generalize effectively in dynamic, real-world
robotic environments.