Mettre en lumière les caractéristiques pertinentes pour la tâche : représentations centrées sur l'objet pour une meilleure généralisation en manipulation robotique
Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation
January 29, 2026
papers.authors: Alexandre Chapin, Bruno Machado, Emmanuel Dellandréa, Liming Chen
cs.AI
papers.abstract
La capacité de généralisation des politiques de manipulation robotique est fortement influencée par le choix des représentations visuelles. Les approches existantes reposent généralement sur des représentations extraites d'encodeurs pré-entraînés, utilisant deux types de caractéristiques dominants : les caractéristiques globales, qui résument une image entière via un seul vecteur agrégé, et les caractéristiques denses, qui préservent un embedding par patch provenant de la couche finale de l'encodeur. Bien que largement utilisés, ces deux types de caractéristiques mélangent des informations pertinentes et non pertinentes pour la tâche, conduisant à une mauvaise généralisation face à des décalages de distribution, tels que des changements d'éclairage, de texture ou la présence de distracteurs. Dans ce travail, nous explorons une alternative structurée intermédiaire : les représentations centrées sur les objets par slots (SBOCR), qui regroupent les caractéristiques denses en un ensemble fini d'entités de type objet. Cette représentation permet de réduire naturellement le bruit fourni à la politique de manipulation robotique tout en conservant suffisamment d'informations pour accomplir la tâche efficacement. Nous comparons un éventail de représentations globales et denses aux représentations intermédiaires basées sur les slots, à travers une série de tâches de manipulation simulées et réelles, allant du simple au complexe. Nous évaluons leur généralisation dans diverses conditions visuelles, incluant des changements d'éclairage, de texture et la présence de distracteurs. Nos résultats révèlent que les politiques basées sur les SBOCR surpassent les politiques basées sur les représentations denses et globales dans des scénarios de généralisation, même sans pré-entraînement spécifique à la tâche. Ces observations suggèrent que les SBOCR constituent une voie prometteuse pour concevoir des systèmes visuels qui généralisent efficacement dans des environnements robotiques dynamiques et réels.
English
The generalization capabilities of robotic manipulation policies are heavily influenced by the choice of visual representations. Existing approaches typically rely on representations extracted from pre-trained encoders, using two dominant types of features: global features, which summarize an entire image via a single pooled vector, and dense features, which preserve a patch-wise embedding from the final encoder layer. While widely used, both feature types mix task-relevant and irrelevant information, leading to poor generalization under distribution shifts, such as changes in lighting, textures, or the presence of distractors. In this work, we explore an intermediate structured alternative: Slot-Based Object-Centric Representations (SBOCR), which group dense features into a finite set of object-like entities. This representation permits to naturally reduce the noise provided to the robotic manipulation policy while keeping enough information to efficiently perform the task. We benchmark a range of global and dense representations against intermediate slot-based representations, across a suite of simulated and real-world manipulation tasks ranging from simple to complex. We evaluate their generalization under diverse visual conditions, including changes in lighting, texture, and the presence of distractors. Our findings reveal that SBOCR-based policies outperform dense and global representation-based policies in generalization settings, even without task-specific pretraining. These insights suggest that SBOCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.