ChatPaper.aiChatPaper

Hervorhebung aufgabenrelevanter Merkmale: Objektzentrierte Repräsentationen für bessere Generalisierung in der robotischen Manipulation

Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation

January 29, 2026
papers.authors: Alexandre Chapin, Bruno Machado, Emmanuel Dellandréa, Liming Chen
cs.AI

papers.abstract

Die Generalisierungsfähigkeiten von Robotermanipulationspolitiken werden maßgeblich durch die Wahl der visuellen Repräsentationen beeinflusst. Bisherige Ansätze stützen sich typischerweise auf Repräsentationen, die mit vortrainierten Encodern extrahiert werden, wobei zwei dominierende Merkmalstypen zum Einsatz kommen: Globale Merkmale, die ein gesamtes Bild in einem einzigen gepoolten Vektor zusammenfassen, und dichte Merkmale, die eine patchenweise Einbettung aus der letzten Encoder-Schicht bewahren. Obwohl weit verbreitet, vermischen beide Merkmalstypen aufgabenrelevante und irrelevante Informationen, was zu einer schlechten Generalisierung unter Verteilungsverschiebungen führt, wie z.B. bei Änderungen der Beleuchtung, Texturen oder bei der Anwesenheit von Ablenkungselementen. In dieser Arbeit untersuchen wir eine strukturierte Zwischenlösung: slotbasierte objektzentrierte Repräsentationen (SBOCR), die dichte Merkmale zu einer endlichen Menge von objektähnlichen Entitäten gruppieren. Diese Repräsentation ermöglicht es, das Rauschen, das der Robotermanipulationspolitik zugeführt wird, auf natürliche Weise zu reduzieren, während genügend Information für eine effiziente Aufgabendurchführung erhalten bleibt. Wir vergleichen eine Reihe von globalen und dichten Repräsentationen mit den slotbasierten Zwischenrepräsentationen anhand einer Reihe von simulierten und realen Manipulationsaufgaben, die von einfach bis komplex reichen. Wir bewerten ihre Generalisierung unter verschiedenen visuellen Bedingungen, einschließlich Änderungen der Beleuchtung, der Textur und der Anwesenheit von Ablenkungselementen. Unsere Ergebnisse zeigen, dass auf SBOCR basierende Politiken in Generalisierungsszenarien Politiken auf Basis von dichten und globalen Repräsentationen übertreffen, selbst ohne aufgabenspezifisches Vortraining. Diese Erkenntnisse legen nahe, dass SBOCR eine vielversprechende Richtung für den Entwurf von visuellen Systemen darstellt, die in dynamischen, realen Roboterumgebungen effektiv generalisieren.
English
The generalization capabilities of robotic manipulation policies are heavily influenced by the choice of visual representations. Existing approaches typically rely on representations extracted from pre-trained encoders, using two dominant types of features: global features, which summarize an entire image via a single pooled vector, and dense features, which preserve a patch-wise embedding from the final encoder layer. While widely used, both feature types mix task-relevant and irrelevant information, leading to poor generalization under distribution shifts, such as changes in lighting, textures, or the presence of distractors. In this work, we explore an intermediate structured alternative: Slot-Based Object-Centric Representations (SBOCR), which group dense features into a finite set of object-like entities. This representation permits to naturally reduce the noise provided to the robotic manipulation policy while keeping enough information to efficiently perform the task. We benchmark a range of global and dense representations against intermediate slot-based representations, across a suite of simulated and real-world manipulation tasks ranging from simple to complex. We evaluate their generalization under diverse visual conditions, including changes in lighting, texture, and the presence of distractors. Our findings reveal that SBOCR-based policies outperform dense and global representation-based policies in generalization settings, even without task-specific pretraining. These insights suggest that SBOCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.
PDF02January 31, 2026