Les représentations centrées sur l'objet améliorent la généralisation des politiques dans la manipulation robotique.

papers.abstract

Les représentations visuelles sont essentielles pour les capacités d'apprentissage et de généralisation des politiques de manipulation robotique. Alors que les méthodes existantes reposent sur des caractéristiques globales ou denses, ces représentations entremêlent souvent les informations pertinentes et non pertinentes pour la tâche, limitant ainsi la robustesse face aux changements de distribution. Dans ce travail, nous explorons les représentations centrées sur les objets (OCR) comme alternative structurée qui segmente l'entrée visuelle en un ensemble fini d'entités, introduisant des biais inductifs qui s'alignent plus naturellement avec les tâches de manipulation. Nous comparons une gamme d'encodeurs visuels - centrés sur les objets, globaux et denses - à travers une série de tâches de manipulation simulées et réelles, allant du simple au complexe, et évaluons leur capacité de généralisation dans diverses conditions visuelles, incluant des changements d'éclairage, de texture et la présence de distracteurs. Nos résultats montrent que les politiques basées sur OCR surpassent les représentations denses et globales dans des scénarios de généralisation, même sans prétraitement spécifique à la tâche. Ces observations suggèrent que OCR est une voie prometteuse pour concevoir des systèmes visuels capables de généraliser efficacement dans des environnements robotiques dynamiques et réels.

English

Visual representations are central to the learning and generalization capabilities of robotic manipulation policies. While existing methods rely on global or dense features, such representations often entangle task-relevant and irrelevant scene information, limiting robustness under distribution shifts. In this work, we investigate object-centric representations (OCR) as a structured alternative that segments visual input into a finished set of entities, introducing inductive biases that align more naturally with manipulation tasks. We benchmark a range of visual encoders-object-centric, global and dense methods-across a suite of simulated and real-world manipulation tasks ranging from simple to complex, and evaluate their generalization under diverse visual conditions including changes in lighting, texture, and the presence of distractors. Our findings reveal that OCR-based policies outperform dense and global representations in generalization settings, even without task-specific pretraining. These insights suggest that OCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.

Les représentations centrées sur l'objet améliorent la généralisation des politiques dans la manipulation robotique.

Object-Centric Representations Improve Policy Generalization in Robot Manipulation

papers.abstract

Support