Destacando Características Relevantes para a Tarefa: Representações Centradas no Objeto para Melhor Generalização na Manipulação Robótica

Resumo

A capacidade de generalização das políticas de manipulação robótica é fortemente influenciada pela escolha das representações visuais. As abordagens existentes geralmente dependem de representações extraídas de codificadores pré-treinados, utilizando dois tipos dominantes de características: características globais, que resumem uma imagem inteira através de um único vetor agregado, e características densas, que preservam um *embedding* segmentado da camada final do codificador. Embora amplamente utilizados, ambos os tipos de características misturam informações relevantes e irrelevantes para a tarefa, resultando em uma fraca generalização sob mudanças de distribuição, como alterações na iluminação, texturas ou a presença de elementos de distração. Neste trabalho, exploramos uma alternativa estruturada intermediária: Representações Baseadas em *Slots* com Abordagem Centrada no Objeto (SBOCR), que agrupam características densas em um conjunto finito de entidades semelhantes a objetos. Esta representação permite reduzir naturalmente o ruído fornecido à política de manipulação robótica, mantendo informações suficientes para executar a tarefa com eficiência. Avaliamos uma variedade de representações globais e densas em comparação com representações intermediárias baseadas em *slots*, através de uma série de tarefas de manipulação simuladas e do mundo real, variando de simples a complexas. Avaliamos a sua generalização sob diversas condições visuais, incluindo mudanças na iluminação, textura e presença de elementos de distração. As nossas conclusões revelam que as políticas baseadas em SBOCR superam as políticas baseadas em representações densas e globais em cenários de generalização, mesmo sem pré-treinamento específico para a tarefa. Esses insights sugerem que a SBOCR é uma direção promissora para projetar sistemas visuais que generalizam de forma eficaz em ambientes robóticos dinâmicos do mundo real.

English

The generalization capabilities of robotic manipulation policies are heavily influenced by the choice of visual representations. Existing approaches typically rely on representations extracted from pre-trained encoders, using two dominant types of features: global features, which summarize an entire image via a single pooled vector, and dense features, which preserve a patch-wise embedding from the final encoder layer. While widely used, both feature types mix task-relevant and irrelevant information, leading to poor generalization under distribution shifts, such as changes in lighting, textures, or the presence of distractors. In this work, we explore an intermediate structured alternative: Slot-Based Object-Centric Representations (SBOCR), which group dense features into a finite set of object-like entities. This representation permits to naturally reduce the noise provided to the robotic manipulation policy while keeping enough information to efficiently perform the task. We benchmark a range of global and dense representations against intermediate slot-based representations, across a suite of simulated and real-world manipulation tasks ranging from simple to complex. We evaluate their generalization under diverse visual conditions, including changes in lighting, texture, and the presence of distractors. Our findings reveal that SBOCR-based policies outperform dense and global representation-based policies in generalization settings, even without task-specific pretraining. These insights suggest that SBOCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.

Destacando Características Relevantes para a Tarefa: Representações Centradas no Objeto para Melhor Generalização na Manipulação Robótica

Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation

Resumo

Support