ChatPaper.aiChatPaper

Выделение релевантных признаков: объектно-ориентированные представления для улучшения обобщения в задачах роботизированного манипулирования

Spotlighting Task-Relevant Features: Object-Centric Representations for Better Generalization in Robotic Manipulation

January 29, 2026
Авторы: Alexandre Chapin, Bruno Machado, Emmanuel Dellandréa, Liming Chen
cs.AI

Аннотация

Обобщающая способность политик роботизированного манипулирования в значительной степени зависит от выбора визуальных представлений. Существующие подходы обычно полагаются на представления, извлеченные из предварительно обученных энкодеров, используя два доминирующих типа признаков: глобальные признаки, которые обобщают все изображение с помощью единого вектора, и плотные признаки, которые сохраняют поэлементное представление из последнего слоя энкодера. Несмотря на широкое использование, оба типа признаков смешивают информацию, релевантную и нерелевантную задаче, что приводит к плохому обобщению при сдвигах распределения, таких как изменения освещения, текстуры или наличие отвлекающих объектов. В данной работе мы исследуем структурированную промежуточную альтернативу: объектно-ориентированные представления на основе слотов (Slot-Based Object-Centric Representations, SBOCR), которые группируют плотные признаки в конечный набор объектно-подобных сущностей. Это представление позволяет естественным образом уменьшить шум, поступающий в политику манипулирования, сохраняя при этом достаточно информации для эффективного выполнения задачи. Мы проводим сравнительный анализ ряда глобальных и плотных представлений с промежуточными представлениями на основе слотов на наборе симулированных и реальных задач манипулирования, от простых до сложных. Мы оцениваем их способность к обобщению в различных визуальных условиях, включая изменения освещения, текстуры и наличие отвлекающих объектов. Наши результаты показывают, что политики на основе SBOCR превосходят политики на основе плотных и глобальных представлений в условиях обобщения, даже без предварительного обучения для конкретной задачи. Эти результаты свидетельствуют о том, что SBOCR являются перспективным направлением для разработки визуальных систем, эффективно обобщающихся в динамичных, реальных роботизированных средах.
English
The generalization capabilities of robotic manipulation policies are heavily influenced by the choice of visual representations. Existing approaches typically rely on representations extracted from pre-trained encoders, using two dominant types of features: global features, which summarize an entire image via a single pooled vector, and dense features, which preserve a patch-wise embedding from the final encoder layer. While widely used, both feature types mix task-relevant and irrelevant information, leading to poor generalization under distribution shifts, such as changes in lighting, textures, or the presence of distractors. In this work, we explore an intermediate structured alternative: Slot-Based Object-Centric Representations (SBOCR), which group dense features into a finite set of object-like entities. This representation permits to naturally reduce the noise provided to the robotic manipulation policy while keeping enough information to efficiently perform the task. We benchmark a range of global and dense representations against intermediate slot-based representations, across a suite of simulated and real-world manipulation tasks ranging from simple to complex. We evaluate their generalization under diverse visual conditions, including changes in lighting, texture, and the presence of distractors. Our findings reveal that SBOCR-based policies outperform dense and global representation-based policies in generalization settings, even without task-specific pretraining. These insights suggest that SBOCR is a promising direction for designing visual systems that generalize effectively in dynamic, real-world robotic environments.
PDF02January 31, 2026