Les représentations centrées sur l'objet améliorent la généralisation des politiques dans la manipulation robotique.
Object-Centric Representations Improve Policy Generalization in Robot Manipulation
May 16, 2025
Auteurs: Alexandre Chapin, Bruno Machado, Emmanuel Dellandrea, Liming Chen
cs.AI
Résumé
Les représentations visuelles sont essentielles pour les capacités d'apprentissage et de généralisation des politiques de manipulation robotique. Alors que les méthodes existantes reposent sur des caractéristiques globales ou denses, ces représentations entremêlent souvent les informations pertinentes et non pertinentes pour la tâche, limitant ainsi la robustesse face aux changements de distribution. Dans ce travail, nous explorons les représentations centrées sur les objets (OCR) comme alternative structurée qui segmente l'entrée visuelle en un ensemble fini d'entités, introduisant des biais inductifs qui s'alignent plus naturellement avec les tâches de manipulation. Nous comparons une gamme d'encodeurs visuels - centrés sur les objets, globaux et denses - à travers une série de tâches de manipulation simulées et réelles, allant du simple au complexe, et évaluons leur capacité de généralisation dans diverses conditions visuelles, incluant des changements d'éclairage, de texture et la présence de distracteurs. Nos résultats montrent que les politiques basées sur OCR surpassent les représentations denses et globales dans des scénarios de généralisation, même sans prétraitement spécifique à la tâche. Ces observations suggèrent que OCR est une voie prometteuse pour concevoir des systèmes visuels capables de généraliser efficacement dans des environnements robotiques dynamiques et réels.
English
Visual representations are central to the learning and generalization
capabilities of robotic manipulation policies. While existing methods rely on
global or dense features, such representations often entangle task-relevant and
irrelevant scene information, limiting robustness under distribution shifts. In
this work, we investigate object-centric representations (OCR) as a structured
alternative that segments visual input into a finished set of entities,
introducing inductive biases that align more naturally with manipulation tasks.
We benchmark a range of visual encoders-object-centric, global and dense
methods-across a suite of simulated and real-world manipulation tasks ranging
from simple to complex, and evaluate their generalization under diverse visual
conditions including changes in lighting, texture, and the presence of
distractors. Our findings reveal that OCR-based policies outperform dense and
global representations in generalization settings, even without task-specific
pretraining. These insights suggest that OCR is a promising direction for
designing visual systems that generalize effectively in dynamic, real-world
robotic environments.Summary
AI-Generated Summary