ChatPaper.aiChatPaper

Destacando Características Relevantes para la Tarea: Representaciones Centradas en Objetos para una Mejor Generalización en Manipulación Robótica

Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation

January 29, 2026
Autores: Alexandre Chapin, Bruno Machado, Emmanuel Dellandréa, Liming Chen
cs.AI

Resumen

La capacidad de generalización de las políticas de manipulación robótica está fuertemente influenciada por la elección de las representaciones visuales. Los enfoques existentes suelen basarse en representaciones extraídas de codificadores preentrenados, utilizando dos tipos de características dominantes: las características globales, que resumen una imagen completa mediante un único vector agrupado, y las características densas, que preservan una incrustación por parches de la capa final del codificador. Aunque son ampliamente utilizados, ambos tipos de características mezclan información relevante e irrelevante para la tarea, lo que conduce a una pobre generalización bajo cambios de distribución, como variaciones en la iluminación, texturas o la presencia de distractores. En este trabajo, exploramos una alternativa estructurada intermedia: las Representaciones Centradas en Objetos Basadas en Slots (SBOCR), que agrupan características densas en un conjunto finito de entidades similares a objetos. Esta representación permite reducir naturalmente el ruido proporcionado a la política de manipulación robótica, manteniendo suficiente información para realizar la tarea de manera eficiente. Comparamos una variedad de representaciones globales y densas con representaciones intermedias basadas en slots, a través de un conjunto de tareas de manipulación simuladas y del mundo real que van de simples a complejas. Evaluamos su generalización bajo diversas condiciones visuales, incluyendo cambios en la iluminación, textura y la presencia de distractores. Nuestros hallazgos revelan que las políticas basadas en SBOCR superan a las políticas basadas en representaciones densas y globales en entornos de generalización, incluso sin preentrenamiento específico para la tarea. Estas observaciones sugieren que las SBOCR son una dirección prometedora para diseñar sistemas visuales que generalizan eficazmente en entornos robóticos dinámicos del mundo real.
English
The generalization capabilities of robotic manipulation policies are heavily influenced by the choice of visual representations. Existing approaches typically rely on representations extracted from pre-trained encoders, using two dominant types of features: global features, which summarize an entire image via a single pooled vector, and dense features, which preserve a patch-wise embedding from the final encoder layer. While widely used, both feature types mix task-relevant and irrelevant information, leading to poor generalization under distribution shifts, such as changes in lighting, textures, or the presence of distractors. In this work, we explore an intermediate structured alternative: Slot-Based Object-Centric Representations (SBOCR), which group dense features into a finite set of object-like entities. This representation permits to naturally reduce the noise provided to the robotic manipulation policy while keeping enough information to efficiently perform the task. We benchmark a range of global and dense representations against intermediate slot-based representations, across a suite of simulated and real-world manipulation tasks ranging from simple to complex. We evaluate their generalization under diverse visual conditions, including changes in lighting, texture, and the presence of distractors. Our findings reveal that SBOCR-based policies outperform dense and global representation-based policies in generalization settings, even without task-specific pretraining. These insights suggest that SBOCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.
PDF02January 31, 2026