STORM : Représentation Objet-centrique Consciente de la Tâche par Emplacements pour la Manipulation Robotique
STORM: Slot-based Task-aware Object-centric Representation for robotic Manipulation
January 28, 2026
papers.authors: Alexandre Chapin, Emmanuel Dellandréa, Liming Chen
cs.AI
papers.abstract
Les modèles visuels de fondation fournissent des caractéristiques perceptives solides pour la robotique, mais leurs représentations denses manquent de structure explicite au niveau des objets, limitant la robustesse et la contractilité dans les tâches de manipulation. Nous proposons STORM (Représentation Objet-centrique Consciente de la Tâche basée sur Slots pour la Manipulation robotique), un module d'adaptation léger et objet-centrique qui augmente les modèles visuels de fondation figés avec un petit ensemble de slots sémantiquement conscients pour la manipulation robotique. Plutôt que de réentraîner de grands modèles de base, STORM utilise une stratégie d'entraînement multi-phase : les slots objet-centriques sont d'abord stabilisés via un pré-entraînement visuo-sémantique utilisant des embeddings linguistiques, puis adaptés conjointement avec une politique de manipulation en aval. Cet apprentissage par étapes empêche la formation de slots dégénérés et préserve la cohérence sémantique tout en alignant la perception avec les objectifs de la tâche. Les expériences sur des benchmarks de découverte d'objets et des tâches de manipulation simulées montrent que STORM améliore la généralisation aux distracteurs visuels et les performances de contrôle par rapport à l'utilisation directe des caractéristiques de modèles de fondation figés ou à l'entraînement de représentations objet-centriques de bout en bout. Nos résultats soulignent l'adaptation multi-phase comme un mécanisme efficace pour transformer les caractéristiques génériques des modèles de fondation en représentations objet-centriques conscientes de la tâche pour le contrôle robotique.
English
Visual foundation models provide strong perceptual features for robotics, but their dense representations lack explicit object-level structure, limiting robustness and contractility in manipulation tasks. We propose STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), a lightweight object-centric adaptation module that augments frozen visual foundation models with a small set of semantic-aware slots for robotic manipulation. Rather than retraining large backbones, STORM employs a multi-phase training strategy: object-centric slots are first stabilized through visual--semantic pretraining using language embeddings, then jointly adapted with a downstream manipulation policy. This staged learning prevents degenerate slot formation and preserves semantic consistency while aligning perception with task objectives. Experiments on object discovery benchmarks and simulated manipulation tasks show that STORM improves generalization to visual distractors, and control performance compared to directly using frozen foundation model features or training object-centric representations end-to-end. Our results highlight multi-phase adaptation as an efficient mechanism for transforming generic foundation model features into task-aware object-centric representations for robotic control.