Le rappresentazioni centrate sugli oggetti migliorano la generalizzazione delle politiche nella manipolazione robotica
Object-Centric Representations Improve Policy Generalization in Robot Manipulation
May 16, 2025
Autori: Alexandre Chapin, Bruno Machado, Emmanuel Dellandrea, Liming Chen
cs.AI
Abstract
Le rappresentazioni visive sono centrali per le capacità di apprendimento e generalizzazione delle politiche di manipolazione robotica. Mentre i metodi esistenti si basano su caratteristiche globali o dense, tali rappresentazioni spesso intrecciano informazioni rilevanti e irrilevanti per il compito, limitando la robustezza in caso di cambiamenti nella distribuzione dei dati. In questo lavoro, investigiamo le rappresentazioni centrate sugli oggetti (OCR) come alternativa strutturata che segmenta l'input visivo in un insieme definito di entità, introducendo bias induttivi che si allineano più naturalmente con i compiti di manipolazione. Confrontiamo una gamma di encoder visivi - metodi centrati sugli oggetti, globali e densi - su una serie di compiti di manipolazione simulati e nel mondo reale, che vanno da semplici a complessi, e valutiamo la loro capacità di generalizzazione in diverse condizioni visive, inclusi cambiamenti nell'illuminazione, nella texture e nella presenza di distrattori. I nostri risultati rivelano che le politiche basate su OCR superano le rappresentazioni dense e globali negli scenari di generalizzazione, anche senza pre-addestramento specifico per il compito. Queste intuizioni suggeriscono che l'OCR è una direzione promettente per progettare sistemi visivi che generalizzano efficacemente in ambienti robotici dinamici e reali.
English
Visual representations are central to the learning and generalization
capabilities of robotic manipulation policies. While existing methods rely on
global or dense features, such representations often entangle task-relevant and
irrelevant scene information, limiting robustness under distribution shifts. In
this work, we investigate object-centric representations (OCR) as a structured
alternative that segments visual input into a finished set of entities,
introducing inductive biases that align more naturally with manipulation tasks.
We benchmark a range of visual encoders-object-centric, global and dense
methods-across a suite of simulated and real-world manipulation tasks ranging
from simple to complex, and evaluate their generalization under diverse visual
conditions including changes in lighting, texture, and the presence of
distractors. Our findings reveal that OCR-based policies outperform dense and
global representations in generalization settings, even without task-specific
pretraining. These insights suggest that OCR is a promising direction for
designing visual systems that generalize effectively in dynamic, real-world
robotic environments.