Переосмысление предварительно обученных моделей компьютерного зрения для обучения роботов с акцентом на данные
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning
March 10, 2025
Авторы: Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi
cs.AI
Аннотация
Предобученные модели компьютерного зрения (PVMs) являются основой современной робототехники, однако их оптимальная конфигурация остается неясной. В ходе систематической оценки мы обнаружили, что, хотя DINO и iBOT превосходят MAE в задачах визомоторного управления и восприятия, они испытывают трудности при обучении на данных, не ориентированных на отдельные объекты (NOC), — ограничение, тесно связанное с их сниженной способностью изучать объектно-ориентированные представления. Это исследование показывает, что способность формировать объектно-ориентированные представления из необъектно-ориентированных наборов данных робототехники является ключом к успеху для PVMs. Вдохновленные этим открытием, мы разработали SlotMIM — метод, который индуцирует объектно-ориентированные представления, вводя семантическое узкое место для сокращения числа прототипов, чтобы стимулировать появление объектности, а также регуляризацию кросс-видовой согласованности для поощрения мультивью инвариантности. Наши эксперименты охватывают предобучение на объектно-ориентированных, сценарно-ориентированных, веб-собранных и эгоцентричных данных. Во всех настройках наш подход изучает переносимые представления и демонстрирует значительные улучшения по сравнению с предыдущими работами в задачах распознавания изображений, понимания сцен и оценки обучения роботов. При масштабировании с использованием наборов данных миллионного масштаба наш метод также демонстрирует превосходную эффективность данных и масштабируемость. Наш код и модели доступны по адресу https://github.com/CVMI-Lab/SlotMIM.
English
Pre-trained vision models (PVMs) are fundamental to modern robotics, yet
their optimal configuration remains unclear. Through systematic evaluation, we
find that while DINO and iBOT outperform MAE across visuomotor control and
perception tasks, they struggle when trained on non-(single-)object-centric
(NOC) data--a limitation strongly correlated with their diminished ability to
learn object-centric representations. This investigation indicates that the
ability to form object-centric representations from the non-object-centric
robotics dataset is the key to success for PVMs. Motivated by this discovery,
we designed SlotMIM, a method that induces object-centric representations by
introducing a semantic bottleneck to reduce the number of prototypes to
encourage the emergence of objectness as well as cross-view consistency
regularization for encouraging multiview invariance. Our experiments encompass
pre-training on object-centric, scene-centric, web-crawled, and ego-centric
data. Across all settings, our approach learns transferrable representations
and achieves significant improvements over prior work in image recognition,
scene understanding, and robot learning evaluations. When scaled up with
million-scale datasets, our method also demonstrates superior data efficiency
and scalability. Our code and models are publicly available at
https://github.com/CVMI-Lab/SlotMIM.Summary
AI-Generated Summary