Las representaciones centradas en objetos mejoran la generalización de políticas en la manipulación robótica.
Object-Centric Representations Improve Policy Generalization in Robot Manipulation
May 16, 2025
Autores: Alexandre Chapin, Bruno Machado, Emmanuel Dellandrea, Liming Chen
cs.AI
Resumen
Las representaciones visuales son fundamentales para las capacidades de aprendizaje y generalización de las políticas de manipulación robótica. Si bien los métodos existentes dependen de características globales o densas, dichas representaciones a menudo entrelazan información relevante e irrelevante para la tarea, limitando la robustez ante cambios en la distribución. En este trabajo, investigamos las representaciones centradas en objetos (OCR, por sus siglas en inglés) como una alternativa estructurada que segmenta la entrada visual en un conjunto definido de entidades, introduciendo sesgos inductivos que se alinean de manera más natural con las tareas de manipulación. Evaluamos una variedad de codificadores visuales—métodos centrados en objetos, globales y densos—en un conjunto de tareas de manipulación simuladas y del mundo real, que van desde simples hasta complejas, y analizamos su generalización bajo diversas condiciones visuales, incluyendo cambios en la iluminación, textura y la presencia de distractores. Nuestros hallazgos revelan que las políticas basadas en OCR superan a las representaciones densas y globales en entornos de generalización, incluso sin un preentrenamiento específico para la tarea. Estas conclusiones sugieren que OCR es una dirección prometedora para diseñar sistemas visuales que generalizan de manera efectiva en entornos robóticos dinámicos y del mundo real.
English
Visual representations are central to the learning and generalization
capabilities of robotic manipulation policies. While existing methods rely on
global or dense features, such representations often entangle task-relevant and
irrelevant scene information, limiting robustness under distribution shifts. In
this work, we investigate object-centric representations (OCR) as a structured
alternative that segments visual input into a finished set of entities,
introducing inductive biases that align more naturally with manipulation tasks.
We benchmark a range of visual encoders-object-centric, global and dense
methods-across a suite of simulated and real-world manipulation tasks ranging
from simple to complex, and evaluate their generalization under diverse visual
conditions including changes in lighting, texture, and the presence of
distractors. Our findings reveal that OCR-based policies outperform dense and
global representations in generalization settings, even without task-specific
pretraining. These insights suggest that OCR is a promising direction for
designing visual systems that generalize effectively in dynamic, real-world
robotic environments.Summary
AI-Generated Summary