ChatPaper.aiChatPaper

Objektzentrierte Darstellungen verbessern die Politikgeneralisierung in der Roboter-Manipulation

Object-Centric Representations Improve Policy Generalization in Robot Manipulation

May 16, 2025
Autoren: Alexandre Chapin, Bruno Machado, Emmanuel Dellandrea, Liming Chen
cs.AI

Zusammenfassung

Visuelle Darstellungen sind zentral für die Lern- und Generalisierungsfähigkeiten von Robotermanipulationsstrategien. Während bestehende Methoden auf globale oder dichte Merkmale setzen, vermischen solche Darstellungen oft aufgabenrelevante und irrelevante Szeneninformationen, was die Robustheit bei Verteilungsverschiebungen einschränkt. In dieser Arbeit untersuchen wir objektzentrierte Darstellungen (OCR) als strukturierte Alternative, die visuelle Eingaben in eine abgeschlossene Menge von Entitäten segmentiert und induktive Verzerrungen einführt, die sich natürlicher mit Manipulationsaufgaben decken. Wir vergleichen eine Reihe von visuellen Encodern – objektzentrierte, globale und dichte Methoden – über eine Reihe von simulierten und realen Manipulationsaufgaben, die von einfach bis komplex reichen, und bewerten ihre Generalisierung unter verschiedenen visuellen Bedingungen, einschließlich Änderungen in Beleuchtung, Textur und der Anwesenheit von Ablenkern. Unsere Ergebnisse zeigen, dass OCR-basierte Strategien in Generalisierungsszenarien dichte und globale Darstellungen übertreffen, selbst ohne aufgabenspezifisches Vorabtraining. Diese Erkenntnisse deuten darauf hin, dass OCR eine vielversprechende Richtung für die Gestaltung visueller Systeme ist, die effektiv in dynamischen, realen Robotikumgebungen generalisieren.
English
Visual representations are central to the learning and generalization capabilities of robotic manipulation policies. While existing methods rely on global or dense features, such representations often entangle task-relevant and irrelevant scene information, limiting robustness under distribution shifts. In this work, we investigate object-centric representations (OCR) as a structured alternative that segments visual input into a finished set of entities, introducing inductive biases that align more naturally with manipulation tasks. We benchmark a range of visual encoders-object-centric, global and dense methods-across a suite of simulated and real-world manipulation tasks ranging from simple to complex, and evaluate their generalization under diverse visual conditions including changes in lighting, texture, and the presence of distractors. Our findings reveal that OCR-based policies outperform dense and global representations in generalization settings, even without task-specific pretraining. These insights suggest that OCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.

Summary

AI-Generated Summary

PDF02May 21, 2025