STORM: Rappresentazione Oggetto-centrica Consapevole del Compito basata su Slot per la Manipolazione Robotica

Abstract

I modelli visivi di base forniscono caratteristiche percettive robuste per la robotica, ma le loro rappresentazioni dense mancano di una struttura esplicita a livello di oggetto, limitando robustezza e controllabilità nei compiti di manipolazione. Proponiamo STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), un modulo di adattamento leggero e centrato sugli oggetti che arricchisce i modelli visivi di base congelati con un piccolo insieme di slot semantici per la manipolazione robotica. Invece di riaddestrare i backbone di grandi dimensioni, STORM impiega una strategia di addestramento multi-fase: gli slot centrati sugli oggetti vengono prima stabilizzati attraverso un pre-addestramento visivo-semantico che utilizza embedding linguistici, per poi essere adattati congiuntamente a una politica di manipolazione a valle. Questo apprendimento per fasi previene la formazione degenerata degli slot e preserva la coerenza semantica, allineando al contempo la percezione con gli obiettivi del compito. Esperimenti su benchmark di scoperta degli oggetti e compiti di manipolazione simulati mostrano che STORM migliora la generalizzazione ai distrattori visivi e le prestazioni di controllo rispetto all'uso diretto delle caratteristiche di modelli di base congelati o all'addestramento end-to-end di rappresentazioni centrate sugli oggetti. I nostri risultati evidenziano l'adattamento multi-fase come un meccanismo efficiente per trasformare le caratteristiche generiche dei modelli di base in rappresentazioni centrate sugli oggetti e consapevoli del compito per il controllo robotico.

English

Visual foundation models provide strong perceptual features for robotics, but their dense representations lack explicit object-level structure, limiting robustness and contractility in manipulation tasks. We propose STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), a lightweight object-centric adaptation module that augments frozen visual foundation models with a small set of semantic-aware slots for robotic manipulation. Rather than retraining large backbones, STORM employs a multi-phase training strategy: object-centric slots are first stabilized through visual--semantic pretraining using language embeddings, then jointly adapted with a downstream manipulation policy. This staged learning prevents degenerate slot formation and preserves semantic consistency while aligning perception with task objectives. Experiments on object discovery benchmarks and simulated manipulation tasks show that STORM improves generalization to visual distractors, and control performance compared to directly using frozen foundation model features or training object-centric representations end-to-end. Our results highlight multi-phase adaptation as an efficient mechanism for transforming generic foundation model features into task-aware object-centric representations for robotic control.

STORM: Rappresentazione Oggetto-centrica Consapevole del Compito basata su Slot per la Manipolazione Robotica

STORM: Slot-based Task-aware Object-centric Representation for robotic Manipulation

Abstract

Support