Un Enfoque Centrado en los Datos para Revisar Modelos de Visión Preentrenados en el Aprendizaje de Robots
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning
March 10, 2025
Autores: Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi
cs.AI
Resumen
Los modelos de visión preentrenados (PVMs, por sus siglas en inglés) son fundamentales para la robótica moderna, aunque su configuración óptima sigue sin estar clara. A través de una evaluación sistemática, descubrimos que, si bien DINO e iBOT superan a MAE en tareas de control visuomotor y percepción, presentan dificultades cuando se entrenan con datos no centrados en un solo objeto (NOC), una limitación fuertemente correlacionada con su capacidad reducida para aprender representaciones centradas en objetos. Esta investigación indica que la capacidad de formar representaciones centradas en objetos a partir de conjuntos de datos robóticos no centrados en objetos es clave para el éxito de los PVMs. Motivados por este hallazgo, diseñamos SlotMIM, un método que induce representaciones centradas en objetos mediante la introducción de un cuello de botella semántico para reducir el número de prototipos, fomentando así la aparición de la "objetualidad", así como una regularización de consistencia entre vistas para promover la invariancia multivista. Nuestros experimentos abarcan el preentrenamiento con datos centrados en objetos, centrados en escenas, obtenidos de la web y egocéntricos. En todos los escenarios, nuestro enfoque aprende representaciones transferibles y logra mejoras significativas respecto a trabajos anteriores en reconocimiento de imágenes, comprensión de escenas y evaluaciones de aprendizaje robótico. Cuando se escala con conjuntos de datos de millones de muestras, nuestro método también demuestra una eficiencia y escalabilidad superiores. Nuestro código y modelos están disponibles públicamente en https://github.com/CVMI-Lab/SlotMIM.
English
Pre-trained vision models (PVMs) are fundamental to modern robotics, yet
their optimal configuration remains unclear. Through systematic evaluation, we
find that while DINO and iBOT outperform MAE across visuomotor control and
perception tasks, they struggle when trained on non-(single-)object-centric
(NOC) data--a limitation strongly correlated with their diminished ability to
learn object-centric representations. This investigation indicates that the
ability to form object-centric representations from the non-object-centric
robotics dataset is the key to success for PVMs. Motivated by this discovery,
we designed SlotMIM, a method that induces object-centric representations by
introducing a semantic bottleneck to reduce the number of prototypes to
encourage the emergence of objectness as well as cross-view consistency
regularization for encouraging multiview invariance. Our experiments encompass
pre-training on object-centric, scene-centric, web-crawled, and ego-centric
data. Across all settings, our approach learns transferrable representations
and achieves significant improvements over prior work in image recognition,
scene understanding, and robot learning evaluations. When scaled up with
million-scale datasets, our method also demonstrates superior data efficiency
and scalability. Our code and models are publicly available at
https://github.com/CVMI-Lab/SlotMIM.Summary
AI-Generated Summary