Het Belichten van Taakrelevante Kenmerken: Objectgecentreerde Representaties voor Betere Generalisatie in Robotmanipulatie

Samenvatting

De generalisatiecapaciteiten van robotmanipulatiebeleidsregels worden sterk beïnvloed door de keuze van visuele representaties. Bestaande benaderingen vertrouwen doorgaans op representaties die zijn geëxtraheerd uit vooraf getrainde encoders, waarbij twee dominante soorten kenmerken worden gebruikt: globale kenmerken, die een volledige afbeelding samenvatten via een enkele gepoolde vector, en dichte kenmerken, die een patchgewijze inbedding uit de laatste encoderlaag behouden. Hoewel beide kenmerktypen veel worden gebruikt, mengen ze taakrelevante en irrelevante informatie, wat leidt tot slechte generalisatie onder distributieverschuivingen, zoals veranderingen in belichting, texturen of de aanwezigheid van afleiders. In dit werk verkennen we een gestructureerd tussentijds alternatief: op slots gebaseerde objectgecentreerde representaties (SBOCR), die dichte kenmerken groeperen in een eindige set van objectachtige entiteiten. Deze representatie maakt het mogelijk om de ruis die aan het robotmanipulatiebeleid wordt doorgegeven op een natuurlijke manier te verminderen, terwijl voldoende informatie behouden blijft om de taak efficiënt uit te voeren. We vergelijken een reeks globale en dichte representaties met tussentijdse op slots gebaseerde representaties, aan de hand van een reeks gesimuleerde en real-world manipulatietaken, variërend van eenvoudig tot complex. We evalueren hun generalisatie onder diverse visuele omstandigheden, waaronder veranderingen in belichting, textuur en de aanwezigheid van afleiders. Onze bevindingen tonen aan dat op SBOCR gebaseerde beleidsregels beter presteren dan op dichte en globale representaties gebaseerde beleidsregels in generalisatieomstandigheden, zelfs zonder taakspecifieke voortraining. Deze inzichten suggereren dat SBOCR een veelbelovende richting is voor het ontwerpen van visuele systemen die effectief generaliseren in dynamische, real-world robotomgevingen.

English

The generalization capabilities of robotic manipulation policies are heavily influenced by the choice of visual representations. Existing approaches typically rely on representations extracted from pre-trained encoders, using two dominant types of features: global features, which summarize an entire image via a single pooled vector, and dense features, which preserve a patch-wise embedding from the final encoder layer. While widely used, both feature types mix task-relevant and irrelevant information, leading to poor generalization under distribution shifts, such as changes in lighting, textures, or the presence of distractors. In this work, we explore an intermediate structured alternative: Slot-Based Object-Centric Representations (SBOCR), which group dense features into a finite set of object-like entities. This representation permits to naturally reduce the noise provided to the robotic manipulation policy while keeping enough information to efficiently perform the task. We benchmark a range of global and dense representations against intermediate slot-based representations, across a suite of simulated and real-world manipulation tasks ranging from simple to complex. We evaluate their generalization under diverse visual conditions, including changes in lighting, texture, and the presence of distractors. Our findings reveal that SBOCR-based policies outperform dense and global representation-based policies in generalization settings, even without task-specific pretraining. These insights suggest that SBOCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.

Het Belichten van Taakrelevante Kenmerken: Objectgecentreerde Representaties voor Betere Generalisatie in Robotmanipulatie

Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation

Samenvatting

Support