ChatPaper.aiChatPaper

タスク関連特徴の焦点化:ロボットマニピューションにおける一般化性能向上のためのオブジェクト中心表現

Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation

January 29, 2026
著者: Alexandre Chapin, Bruno Machado, Emmanuel Dellandréa, Liming Chen
cs.AI

要旨

ロボットマニピュレーションポリシーの一般化能力は、視覚的表現の選択に強く影響される。既存手法では、事前学習済みエンコーダーから抽出した表現に依存するのが一般的であり、主に2つの特徴タイプが用いられている:画像全体を単一のプール化ベクトルで要約するグローバル特徴と、エンコーダー最終層からのパッチ単位の埋め込みを保持する密特徴である。これらは広く利用されているものの、両特徴タイプはタスクに関連する情報と無関係な情報を混在させるため、照明やテクスチャの変化、妨害物の存在といった分布シフト下での一般化性能が低いという課題がある。本研究では、密特徴を有限個の物体様エンティティにグループ化する、中間的な構造化代替案であるスロットベース物体中心表現(SBOCR)を探求する。この表現は、タスクを効率的に実行するのに十分な情報を保持しつつ、ロボットマニピュレーションポリシーに供給されるノイズを自然に低減することを可能にする。我々は、単純なものから複雑なものまで、シミュレーションおよび実世界のマニピュレーションタスク群において、様々なグローバル表現および密表現と、中間的なスロットベース表現を比較評価した。照明、テクスチャの変化、妨害物の存在を含む多様な視覚条件下での一般化性能を評価した結果、SBOCRベースのポリシーは、タスク特化的な事前学習なしにおいても、分布シフト設定において密表現やグローバル表現ベースのポリシーを凌駕することを明らかにした。これらの知見は、SBOCRが動的な実世界ロボット環境において効果的に一般化する視覚システムを設計するための有望な方向性であることを示唆している。
English
The generalization capabilities of robotic manipulation policies are heavily influenced by the choice of visual representations. Existing approaches typically rely on representations extracted from pre-trained encoders, using two dominant types of features: global features, which summarize an entire image via a single pooled vector, and dense features, which preserve a patch-wise embedding from the final encoder layer. While widely used, both feature types mix task-relevant and irrelevant information, leading to poor generalization under distribution shifts, such as changes in lighting, textures, or the presence of distractors. In this work, we explore an intermediate structured alternative: Slot-Based Object-Centric Representations (SBOCR), which group dense features into a finite set of object-like entities. This representation permits to naturally reduce the noise provided to the robotic manipulation policy while keeping enough information to efficiently perform the task. We benchmark a range of global and dense representations against intermediate slot-based representations, across a suite of simulated and real-world manipulation tasks ranging from simple to complex. We evaluate their generalization under diverse visual conditions, including changes in lighting, texture, and the presence of distractors. Our findings reveal that SBOCR-based policies outperform dense and global representation-based policies in generalization settings, even without task-specific pretraining. These insights suggest that SBOCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.
PDF02January 31, 2026