작업 관련 특징 부각: 로봇 매니퓰레이션의 일반화 성능 향상을 위한 객체 중심 표현
Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation
January 29, 2026
저자: Alexandre Chapin, Bruno Machado, Emmanuel Dellandréa, Liming Chen
cs.AI
초록
로봇 매니퓰레이션 정책의 일반화 성능은 시각적 표현의 선택에 크게 영향을 받습니다. 기존 접근법들은 일반적으로 사전 훈련된 인코더에서 추출한 표현에 의존하며, 두 가지 주요 특징 유형을 사용합니다: 전체 이미지를 단일 풀링된 벡터로 요약하는 전역 특징과 인코더 최종 계층의 패치 단위 임베딩을 보존하는 밀집 특징이 그것입니다. 널리 사용되고 있지만, 두 특징 유형 모두 작업 관련 정보와 무관한 정보를 혼합하여 조명, 질감 변화 또는 방해 요소 출현과 같은 분포 변화 상황에서 낮은 일반화 성능을 보입니다. 본 연구에서는 중간 수준의 구조화된 대안인 객체 중심 슬롯 기반 표현(SBOCR)을 탐구합니다. 이 표현은 밀집 특징을 유한한 개수의 객체 유사 엔티티 집합으로 그룹화합니다. 이를 통해 로봇 매니퓰레이션 정책에 제공되는 노이즈를 자연스럽게 감소시키면서 작업을 효율적으로 수행하기에 충분한 정보를 유지할 수 있습니다. 우리는 단순한 작업부터 복잡한 작업까지 시뮬레이션 및 실제 환경의 다양한 매니퓰레이션 과제군에서 전역 및 밀집 표현과 중간 수준의 슬롯 기반 표현을 벤치마크합니다. 또한 조명, 질감 변화 및 방해 요소 존재를 포함한 다양한 시각적 조건에서의 일반화 성능을 평가합니다. 우리의 연구 결과는 SBOCR 기반 정책이 작업 특화 사전 훈련 없이도 일반화 설정에서 밀집 및 전역 표현 기반 정책을 능가함을 보여줍니다. 이러한 결과는 SBOCR이 역동적인 실제 로봇 환경에서 효과적으로 일반화하는 시각 시스템 설계를 위한 유망한 방향임을 시사합니다.
English
The generalization capabilities of robotic manipulation policies are heavily influenced by the choice of visual representations. Existing approaches typically rely on representations extracted from pre-trained encoders, using two dominant types of features: global features, which summarize an entire image via a single pooled vector, and dense features, which preserve a patch-wise embedding from the final encoder layer. While widely used, both feature types mix task-relevant and irrelevant information, leading to poor generalization under distribution shifts, such as changes in lighting, textures, or the presence of distractors. In this work, we explore an intermediate structured alternative: Slot-Based Object-Centric Representations (SBOCR), which group dense features into a finite set of object-like entities. This representation permits to naturally reduce the noise provided to the robotic manipulation policy while keeping enough information to efficiently perform the task. We benchmark a range of global and dense representations against intermediate slot-based representations, across a suite of simulated and real-world manipulation tasks ranging from simple to complex. We evaluate their generalization under diverse visual conditions, including changes in lighting, texture, and the presence of distractors. Our findings reveal that SBOCR-based policies outperform dense and global representation-based policies in generalization settings, even without task-specific pretraining. These insights suggest that SBOCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.