Een Data-Gerichte Herziening van Vooraf Getrainde Visuele Modellen voor Robotleren
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning
March 10, 2025
Auteurs: Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi
cs.AI
Samenvatting
Voorgetrainde visuele modellen (PVM's) zijn fundamenteel voor moderne robotica, maar hun optimale configuratie blijft onduidelijk. Door systematische evaluatie ontdekken we dat hoewel DINO en iBOT MAE overtreffen in visuomotorische controle en perceptietaken, ze moeite hebben wanneer ze getraind worden op niet-(enkel-)objectgerichte (NOC) data—een beperking die sterk gecorreleerd is met hun verminderde vermogen om objectgerichte representaties te leren. Dit onderzoek geeft aan dat het vermogen om objectgerichte representaties te vormen uit niet-objectgerichte robotica-datasets de sleutel tot succes is voor PVM's. Gemotiveerd door deze ontdekking hebben we SlotMIM ontworpen, een methode die objectgerichte representaties induceert door een semantisch knelpunt in te voeren om het aantal prototypes te verminderen, wat de opkomst van objectgerichtheid bevordert, evenals cross-view consistentie-regularisatie om multiview-invariantie te stimuleren. Onze experimenten omvatten vooraf trainen op objectgerichte, scènegerichte, webgecrawlde en ego-centrische data. In alle omstandigheden leert onze aanpak overdraagbare representaties en behaalt significante verbeteringen ten opzichte van eerder werk in beeldherkenning, scènebegrip en robotica-evaluaties. Wanneer opgeschaald met datasets op miljoenschaal, toont onze methode ook superieure data-efficiëntie en schaalbaarheid. Onze code en modellen zijn publiekelijk beschikbaar op https://github.com/CVMI-Lab/SlotMIM.
English
Pre-trained vision models (PVMs) are fundamental to modern robotics, yet
their optimal configuration remains unclear. Through systematic evaluation, we
find that while DINO and iBOT outperform MAE across visuomotor control and
perception tasks, they struggle when trained on non-(single-)object-centric
(NOC) data--a limitation strongly correlated with their diminished ability to
learn object-centric representations. This investigation indicates that the
ability to form object-centric representations from the non-object-centric
robotics dataset is the key to success for PVMs. Motivated by this discovery,
we designed SlotMIM, a method that induces object-centric representations by
introducing a semantic bottleneck to reduce the number of prototypes to
encourage the emergence of objectness as well as cross-view consistency
regularization for encouraging multiview invariance. Our experiments encompass
pre-training on object-centric, scene-centric, web-crawled, and ego-centric
data. Across all settings, our approach learns transferrable representations
and achieves significant improvements over prior work in image recognition,
scene understanding, and robot learning evaluations. When scaled up with
million-scale datasets, our method also demonstrates superior data efficiency
and scalability. Our code and models are publicly available at
https://github.com/CVMI-Lab/SlotMIM.Summary
AI-Generated Summary