Object-gecentreerde representaties verbeteren beleidsgeneralizatie in robotmanipulatie.
Object-Centric Representations Improve Policy Generalization in Robot Manipulation
May 16, 2025
Auteurs: Alexandre Chapin, Bruno Machado, Emmanuel Dellandrea, Liming Chen
cs.AI
Samenvatting
Visuele representaties zijn essentieel voor de leer- en generalisatiecapaciteiten van robotmanipulatiebeleidsregels. Hoewel bestaande methoden vertrouwen op globale of dichte kenmerken, verstrengelen dergelijke representaties vaak taakrelevante en irrelevante scène-informatie, wat de robuustheid onder distributieverschuivingen beperkt. In dit werk onderzoeken we objectgecentreerde representaties (OCR) als een gestructureerd alternatief dat visuele invoer segmenteren in een afgebakende set entiteiten, waarbij inductieve vooroordelen worden geïntroduceerd die natuurlijker aansluiten bij manipulatietaken. We testen een reeks visuele encoders—objectgecentreerde, globale en dichte methoden—in een reeks gesimuleerde en real-world manipulatietaken, variërend van eenvoudig tot complex, en evalueren hun generalisatie onder diverse visuele omstandigheden, waaronder veranderingen in belichting, textuur en de aanwezigheid van afleiders. Onze bevindingen tonen aan dat OCR-gebaseerde beleidsregels dichte en globale representaties overtreffen in generalisatieomstandigheden, zelfs zonder taakspecifieke voorafgaande training. Deze inzichten suggereren dat OCR een veelbelovende richting is voor het ontwerpen van visuele systemen die effectief generaliseren in dynamische, real-world robotomgevingen.
English
Visual representations are central to the learning and generalization
capabilities of robotic manipulation policies. While existing methods rely on
global or dense features, such representations often entangle task-relevant and
irrelevant scene information, limiting robustness under distribution shifts. In
this work, we investigate object-centric representations (OCR) as a structured
alternative that segments visual input into a finished set of entities,
introducing inductive biases that align more naturally with manipulation tasks.
We benchmark a range of visual encoders-object-centric, global and dense
methods-across a suite of simulated and real-world manipulation tasks ranging
from simple to complex, and evaluate their generalization under diverse visual
conditions including changes in lighting, texture, and the presence of
distractors. Our findings reveal that OCR-based policies outperform dense and
global representations in generalization settings, even without task-specific
pretraining. These insights suggest that OCR is a promising direction for
designing visual systems that generalize effectively in dynamic, real-world
robotic environments.Summary
AI-Generated Summary