ChatPaper.aiChatPaper

STORM: 로봇 매니픽레이션을 위한 슬롯 기반 작업 인지 객체 중심 표현

STORM: Slot-based Task-aware Object-centric Representation for robotic Manipulation

January 28, 2026
저자: Alexandre Chapin, Emmanuel Dellandréa, Liming Chen
cs.AI

초록

시각 기초 모델은 로봇 공학에 강력한 지각 특징을 제공하지만, 이들의 밀집 표현은 명시적인 객체 수준 구조가 부족하여 조작 작업에서 견고성과 계약성이 제한됩니다. 우리는 STORM(Slot-based Task-aware Object-centric Representation for robotic Manipulation)을 제안합니다. 이는 경량 객체 중심 적응 모듈로, 고정된 시각 기초 모델에 소량의 의미 인식 슬롯 세트를 추가하여 로봇 조작 성능을 향상시킵니다. 대규모 백본을 재학습하는 대신, STORM은 다단계 학습 전략을 채택합니다: 객체 중심 슬롯은 먼저 언어 임베딩을 사용한 시각-의미 사전 학습을 통해 안정화된 후, 하위 조작 정책과 공동으로 적응됩니다. 이 단계적 학습은 퇴화된 슬롯 형성을 방지하고 인식을 작업 목표에 정렬하면서 의미 일관성을 유지합니다. 객체 발견 벤치마크 및 시뮬레이션 조작 작업에 대한 실험 결과, STORM이 고정된 기초 모델 특징을 직접 사용하거나 객체 중심 표현을 종단간 학습하는 방법에 비해 시각적 방해 요소에 대한 일반화 및 제어 성능을 향상시킴을 보여줍니다. 우리의 결과는 다단계 적응이 일반적인 기초 모델 특징을 로봇 제어를 위한 작업 인식 객체 중심 표현으로 변환하는 효율적인 메커니즘임을 강조합니다.
English
Visual foundation models provide strong perceptual features for robotics, but their dense representations lack explicit object-level structure, limiting robustness and contractility in manipulation tasks. We propose STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), a lightweight object-centric adaptation module that augments frozen visual foundation models with a small set of semantic-aware slots for robotic manipulation. Rather than retraining large backbones, STORM employs a multi-phase training strategy: object-centric slots are first stabilized through visual--semantic pretraining using language embeddings, then jointly adapted with a downstream manipulation policy. This staged learning prevents degenerate slot formation and preserves semantic consistency while aligning perception with task objectives. Experiments on object discovery benchmarks and simulated manipulation tasks show that STORM improves generalization to visual distractors, and control performance compared to directly using frozen foundation model features or training object-centric representations end-to-end. Our results highlight multi-phase adaptation as an efficient mechanism for transforming generic foundation model features into task-aware object-centric representations for robotic control.
PDF02January 31, 2026