Eine datenzentrierte Neubetrachtung vortrainierter Vision-Modelle für das Robotik-Lernen
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning
March 10, 2025
Autoren: Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi
cs.AI
Zusammenfassung
Vortrainierte Vision-Modelle (PVMs) sind grundlegend für die moderne Robotik, doch ihre optimale Konfiguration bleibt unklar. Durch systematische Evaluierung stellen wir fest, dass DINO und iBOT zwar MAE in visuomotorischen Steuerungs- und Wahrnehmungsaufgaben übertreffen, jedoch Schwierigkeiten haben, wenn sie mit nicht-(einzel-)objektzentrierten (NOC) Daten trainiert werden – eine Einschränkung, die stark mit ihrer verminderten Fähigkeit korreliert, objektzentrierte Repräsentationen zu lernen. Diese Untersuchung zeigt, dass die Fähigkeit, objektzentrierte Repräsentationen aus nicht-objektzentrierten Robotikdatensätzen zu bilden, der Schlüssel zum Erfolg für PVMs ist. Motiviert durch diese Erkenntnis haben wir SlotMIM entwickelt, eine Methode, die objektzentrierte Repräsentationen induziert, indem sie einen semantischen Engpass einführt, um die Anzahl der Prototypen zu reduzieren und so die Entstehung von Objekthaftigkeit sowie eine Cross-View-Konsistenzregularisierung zur Förderung von Multiview-Invarianz zu fördern. Unsere Experimente umfassen Vortraining auf objektzentrierten, szenenzentrierten, webgecrawlten und egozentrischen Daten. In allen Settings lernt unser Ansatz übertragbare Repräsentationen und erzielt signifikante Verbesserungen gegenüber früheren Arbeiten in Bilderkennung, Szenenverständnis und Robotik-Lernbewertungen. Bei der Skalierung mit Millionen-Datensätzen zeigt unsere Methode zudem überlegene Dateneffizienz und Skalierbarkeit. Unser Code und Modelle sind öffentlich verfügbar unter https://github.com/CVMI-Lab/SlotMIM.
English
Pre-trained vision models (PVMs) are fundamental to modern robotics, yet
their optimal configuration remains unclear. Through systematic evaluation, we
find that while DINO and iBOT outperform MAE across visuomotor control and
perception tasks, they struggle when trained on non-(single-)object-centric
(NOC) data--a limitation strongly correlated with their diminished ability to
learn object-centric representations. This investigation indicates that the
ability to form object-centric representations from the non-object-centric
robotics dataset is the key to success for PVMs. Motivated by this discovery,
we designed SlotMIM, a method that induces object-centric representations by
introducing a semantic bottleneck to reduce the number of prototypes to
encourage the emergence of objectness as well as cross-view consistency
regularization for encouraging multiview invariance. Our experiments encompass
pre-training on object-centric, scene-centric, web-crawled, and ego-centric
data. Across all settings, our approach learns transferrable representations
and achieves significant improvements over prior work in image recognition,
scene understanding, and robot learning evaluations. When scaled up with
million-scale datasets, our method also demonstrates superior data efficiency
and scalability. Our code and models are publicly available at
https://github.com/CVMI-Lab/SlotMIM.Summary
AI-Generated Summary