ChatPaper.aiChatPaper

Representações Centradas em Objetos Melhoram a Generalização de Políticas na Manipulação Robótica

Object-Centric Representations Improve Policy Generalization in Robot Manipulation

May 16, 2025
Autores: Alexandre Chapin, Bruno Machado, Emmanuel Dellandrea, Liming Chen
cs.AI

Resumo

Representações visuais são fundamentais para as capacidades de aprendizado e generalização de políticas de manipulação robótica. Embora os métodos existentes dependam de características globais ou densas, tais representações frequentemente misturam informações relevantes e irrelevantes para a tarefa, limitando a robustez sob mudanças de distribuição. Neste trabalho, investigamos representações centradas em objetos (OCR) como uma alternativa estruturada que segmenta a entrada visual em um conjunto definido de entidades, introduzindo vieses indutivos que se alinham mais naturalmente com tarefas de manipulação. Avaliamos uma variedade de codificadores visuais - métodos centrados em objetos, globais e densos - em um conjunto de tarefas de manipulação simuladas e do mundo real, variando de simples a complexas, e avaliamos sua generalização sob diversas condições visuais, incluindo mudanças de iluminação, textura e a presença de distratores. Nossos resultados revelam que políticas baseadas em OCR superam representações densas e globais em cenários de generalização, mesmo sem pré-treinamento específico para a tarefa. Esses insights sugerem que OCR é uma direção promissora para projetar sistemas visuais que generalizam efetivamente em ambientes robóticos dinâmicos e do mundo real.
English
Visual representations are central to the learning and generalization capabilities of robotic manipulation policies. While existing methods rely on global or dense features, such representations often entangle task-relevant and irrelevant scene information, limiting robustness under distribution shifts. In this work, we investigate object-centric representations (OCR) as a structured alternative that segments visual input into a finished set of entities, introducing inductive biases that align more naturally with manipulation tasks. We benchmark a range of visual encoders-object-centric, global and dense methods-across a suite of simulated and real-world manipulation tasks ranging from simple to complex, and evaluate their generalization under diverse visual conditions including changes in lighting, texture, and the presence of distractors. Our findings reveal that OCR-based policies outperform dense and global representations in generalization settings, even without task-specific pretraining. These insights suggest that OCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.
PDF02December 16, 2025