Evidenziare le caratteristiche rilevanti per il compito: rappresentazioni incentrate sull'oggetto per una migliore generalizzazione nella manipolazione robotica

Abstract

Le capacità di generalizzazione delle politiche di manipolazione robotica sono fortemente influenzate dalla scelta delle rappresentazioni visive. Gli approcci esistenti si basano tipicamente su rappresentazioni estratte da encoder pre-addestrati, utilizzando due tipi di caratteristiche dominanti: le caratteristiche globali, che riassumono un'intera immagine tramite un singolo vettore aggregato, e le caratteristiche dense, che preservano un embedding a livello di patch dallo strato finale dell'encoder. Sebbene ampiamente utilizzati, entrambi i tipi di caratteristiche mescolano informazioni rilevanti e irrilevanti per il compito, portando a una scarsa generalizzazione in caso di cambiamenti nella distribuzione dei dati, come variazioni di illuminazione, trame o presenza di elementi di disturbo. In questo lavoro, esploriamo un'alternativa strutturata intermedia: le Rappresentazioni Centrate sull'Oggetto basate su Slot (SBOCR), che raggruppano le caratteristiche dense in un insieme finito di entità simili a oggetti. Questa rappresentazione permette di ridurre naturalmente il rumore fornito alla politica di manipolazione robotica, mantenendo al contempo informazioni sufficienti per eseguire il compito in modo efficiente. Confrontiamo una serie di rappresentazioni globali e dense con le rappresentazioni intermedie basate su slot, attraverso una serie di compiti di manipolazione simulati e nel mondo reale, che vanno da semplici a complessi. Valutiamo la loro generalizzazione in diverse condizioni visive, inclusi cambiamenti di illuminazione, texture e presenza di distrattori. I nostri risultati rivelano che le politiche basate su SBOCR superano le politiche basate su rappresentazioni dense e globali in scenari di generalizzazione, anche senza pre-addestramento specifico per il compito. Queste intuizioni suggeriscono che le SBOCR sono una direzione promettente per progettare sistemi visivi che generalizzano efficacemente in ambienti robotici dinamici e reali.

English

The generalization capabilities of robotic manipulation policies are heavily influenced by the choice of visual representations. Existing approaches typically rely on representations extracted from pre-trained encoders, using two dominant types of features: global features, which summarize an entire image via a single pooled vector, and dense features, which preserve a patch-wise embedding from the final encoder layer. While widely used, both feature types mix task-relevant and irrelevant information, leading to poor generalization under distribution shifts, such as changes in lighting, textures, or the presence of distractors. In this work, we explore an intermediate structured alternative: Slot-Based Object-Centric Representations (SBOCR), which group dense features into a finite set of object-like entities. This representation permits to naturally reduce the noise provided to the robotic manipulation policy while keeping enough information to efficiently perform the task. We benchmark a range of global and dense representations against intermediate slot-based representations, across a suite of simulated and real-world manipulation tasks ranging from simple to complex. We evaluate their generalization under diverse visual conditions, including changes in lighting, texture, and the presence of distractors. Our findings reveal that SBOCR-based policies outperform dense and global representation-based policies in generalization settings, even without task-specific pretraining. These insights suggest that SBOCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.

Evidenziare le caratteristiche rilevanti per il compito: rappresentazioni incentrate sull'oggetto per una migliore generalizzazione nella manipolazione robotica

Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation

Abstract

Support