ChatPaper.aiChatPaper

Une révision axée sur les données des modèles de vision pré-entraînés pour l'apprentissage robotique

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

March 10, 2025
Auteurs: Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi
cs.AI

Résumé

Les modèles de vision pré-entraînés (PVMs) sont fondamentaux pour la robotique moderne, mais leur configuration optimale reste incertaine. À travers une évaluation systématique, nous constatons que bien que DINO et iBOT surpassent MAE dans les tâches de contrôle visuomoteur et de perception, ils rencontrent des difficultés lorsqu'ils sont entraînés sur des données non centrées sur un seul objet (NOC) - une limitation fortement corrélée à leur capacité réduite à apprendre des représentations centrées sur les objets. Cette étude indique que la capacité à former des représentations centrées sur les objets à partir de jeux de données robotiques non centrés sur les objets est la clé du succès pour les PVMs. Motivés par cette découverte, nous avons conçu SlotMIM, une méthode qui induit des représentations centrées sur les objets en introduisant un goulot d'étranglement sémantique pour réduire le nombre de prototypes afin d'encourager l'émergence de l'objectivité, ainsi qu'une régularisation de la cohérence inter-vues pour favoriser l'invariance multivue. Nos expériences englobent un pré-entraînement sur des données centrées sur les objets, centrées sur les scènes, collectées sur le web et égocentriques. Dans tous les contextes, notre approche apprend des représentations transférables et obtient des améliorations significatives par rapport aux travaux antérieurs en reconnaissance d'images, compréhension de scènes et évaluations d'apprentissage robotique. Lorsqu'elle est mise à l'échelle avec des jeux de données de plusieurs millions d'échantillons, notre méthode démontre également une efficacité et une scalabilité supérieures. Notre code et nos modèles sont disponibles publiquement à l'adresse https://github.com/CVMI-Lab/SlotMIM.
English
Pre-trained vision models (PVMs) are fundamental to modern robotics, yet their optimal configuration remains unclear. Through systematic evaluation, we find that while DINO and iBOT outperform MAE across visuomotor control and perception tasks, they struggle when trained on non-(single-)object-centric (NOC) data--a limitation strongly correlated with their diminished ability to learn object-centric representations. This investigation indicates that the ability to form object-centric representations from the non-object-centric robotics dataset is the key to success for PVMs. Motivated by this discovery, we designed SlotMIM, a method that induces object-centric representations by introducing a semantic bottleneck to reduce the number of prototypes to encourage the emergence of objectness as well as cross-view consistency regularization for encouraging multiview invariance. Our experiments encompass pre-training on object-centric, scene-centric, web-crawled, and ego-centric data. Across all settings, our approach learns transferrable representations and achieves significant improvements over prior work in image recognition, scene understanding, and robot learning evaluations. When scaled up with million-scale datasets, our method also demonstrates superior data efficiency and scalability. Our code and models are publicly available at https://github.com/CVMI-Lab/SlotMIM.

Summary

AI-Generated Summary

PDF32March 11, 2025