ChatPaper.aiChatPaper

STORM: ロボットマニピュレーションのためのスロットベースタスク対応オブジェクト中心表現

STORM: Slot-based Task-aware Object-centric Representation for robotic Manipulation

January 28, 2026
著者: Alexandre Chapin, Emmanuel Dellandréa, Liming Chen
cs.AI

要旨

視覚基盤モデルはロボティクスにおいて強力な知覚特徴を提供するが、その密な表現は明示的なオブジェクトレベルの構造を欠いており、把持タスクにおけるロバスト性と制御性を制限している。本論文では、STORM(ロボティック把持のためのスロットベースタスク認識オブジェクト中心表現)を提案する。これは軽量なオブジェクト中心適応モジュールであり、凍結された視覚基盤モデルを、ロボティック把持のための少数の意味認識スロットで拡張する。大規模なバックボーンの再学習ではなく、STORMは多段階学習戦略を採用する:オブジェクト中心スロットは、まず言語埋め込みを用いた視覚-意味事前学習により安定化され、その後、下流の把持ポリシーと共同で適応される。この段階的学習は、縮退したスロット形成を防止し、知覚とタスク目標を整合させながら意味的一貫性を保持する。オブジェクト発見ベンチマークとシミュレーション把持タスクによる実験では、凍結された基盤モデルの特徴を直接使用する場合や、オブジェクト中心表現をエンドツーエンドで学習する場合と比較して、STORMが視覚的妨害要素への一般化と制御性能を向上させることが示された。本結果は、汎用的な基盤モデルの特徴をロボット制御のためのタスク認識オブジェクト中心表現へ変換する効率的なメカニズムとして、多段階適応の有効性を強調する。
English
Visual foundation models provide strong perceptual features for robotics, but their dense representations lack explicit object-level structure, limiting robustness and contractility in manipulation tasks. We propose STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), a lightweight object-centric adaptation module that augments frozen visual foundation models with a small set of semantic-aware slots for robotic manipulation. Rather than retraining large backbones, STORM employs a multi-phase training strategy: object-centric slots are first stabilized through visual--semantic pretraining using language embeddings, then jointly adapted with a downstream manipulation policy. This staged learning prevents degenerate slot formation and preserves semantic consistency while aligning perception with task objectives. Experiments on object discovery benchmarks and simulated manipulation tasks show that STORM improves generalization to visual distractors, and control performance compared to directly using frozen foundation model features or training object-centric representations end-to-end. Our results highlight multi-phase adaptation as an efficient mechanism for transforming generic foundation model features into task-aware object-centric representations for robotic control.
PDF02January 31, 2026