物体中心表現はロボット操作におけるポリシーの汎化性能を向上させる
Object-Centric Representations Improve Policy Generalization in Robot Manipulation
May 16, 2025
著者: Alexandre Chapin, Bruno Machado, Emmanuel Dellandrea, Liming Chen
cs.AI
要旨
視覚表現は、ロボット操作ポリシーの学習能力と汎化能力において中心的な役割を果たす。既存の手法はグローバルまたは密な特徴量に依存しているが、そのような表現はしばしばタスクに関連する情報と無関係なシーン情報を混在させ、分布シフト下でのロバスト性を制限する。本研究では、視覚入力を完成されたエンティティの集合に分割する構造化された代替案として、オブジェクト中心表現(OCR)を調査する。この表現は、操作タスクにより自然に整合する帰納的バイアスを導入する。我々は、オブジェクト中心、グローバル、密な手法を含む様々な視覚エンコーダを、単純なものから複雑なものまでシミュレーションおよび実世界の操作タスク一式でベンチマークし、照明、テクスチャ、ディストラクタの存在など多様な視覚条件下での汎化性能を評価する。その結果、OCRベースのポリシーは、タスク固有の事前学習なしでも、密な表現やグローバル表現を汎化設定で上回ることが明らかになった。これらの知見は、OCRが動的な実世界のロボット環境において効果的に汎化する視覚システムを設計するための有望な方向性であることを示唆している。
English
Visual representations are central to the learning and generalization
capabilities of robotic manipulation policies. While existing methods rely on
global or dense features, such representations often entangle task-relevant and
irrelevant scene information, limiting robustness under distribution shifts. In
this work, we investigate object-centric representations (OCR) as a structured
alternative that segments visual input into a finished set of entities,
introducing inductive biases that align more naturally with manipulation tasks.
We benchmark a range of visual encoders-object-centric, global and dense
methods-across a suite of simulated and real-world manipulation tasks ranging
from simple to complex, and evaluate their generalization under diverse visual
conditions including changes in lighting, texture, and the presence of
distractors. Our findings reveal that OCR-based policies outperform dense and
global representations in generalization settings, even without task-specific
pretraining. These insights suggest that OCR is a promising direction for
designing visual systems that generalize effectively in dynamic, real-world
robotic environments.Summary
AI-Generated Summary