Uma Revisão Centrada em Dados dos Modelos Visuais Pré-Treinados para Aprendizado de Robótica
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning
March 10, 2025
Autores: Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi
cs.AI
Resumo
Modelos de visão pré-treinados (PVMs) são fundamentais para a robótica moderna, mas sua configuração ideal ainda não é clara. Através de uma avaliação sistemática, descobrimos que, embora DINO e iBOT superem o MAE em tarefas de controle visuomotor e percepção, eles apresentam dificuldades quando treinados com dados não centrados em (um único) objeto (NOC) - uma limitação fortemente correlacionada com sua capacidade reduzida de aprender representações centradas em objetos. Esta investigação indica que a capacidade de formar representações centradas em objetos a partir de conjuntos de dados robóticos não centrados em objetos é a chave para o sucesso dos PVMs. Motivados por essa descoberta, projetamos o SlotMIM, um método que induz representações centradas em objetos ao introduzir um gargalo semântico para reduzir o número de protótipos, incentivando o surgimento de "objetividade", bem como a regularização de consistência entre visões para promover a invariância multivisão. Nossos experimentos abrangem pré-treinamento em dados centrados em objetos, centrados em cenas, obtidos da web e egocêntricos. Em todas as configurações, nossa abordagem aprende representações transferíveis e alcança melhorias significativas em relação a trabalhos anteriores em reconhecimento de imagens, compreensão de cenas e avaliações de aprendizado robótico. Quando escalonado com conjuntos de dados em escala de milhões, nosso método também demonstra eficiência e escalabilidade superiores. Nosso código e modelos estão disponíveis publicamente em https://github.com/CVMI-Lab/SlotMIM.
English
Pre-trained vision models (PVMs) are fundamental to modern robotics, yet
their optimal configuration remains unclear. Through systematic evaluation, we
find that while DINO and iBOT outperform MAE across visuomotor control and
perception tasks, they struggle when trained on non-(single-)object-centric
(NOC) data--a limitation strongly correlated with their diminished ability to
learn object-centric representations. This investigation indicates that the
ability to form object-centric representations from the non-object-centric
robotics dataset is the key to success for PVMs. Motivated by this discovery,
we designed SlotMIM, a method that induces object-centric representations by
introducing a semantic bottleneck to reduce the number of prototypes to
encourage the emergence of objectness as well as cross-view consistency
regularization for encouraging multiview invariance. Our experiments encompass
pre-training on object-centric, scene-centric, web-crawled, and ego-centric
data. Across all settings, our approach learns transferrable representations
and achieves significant improvements over prior work in image recognition,
scene understanding, and robot learning evaluations. When scaled up with
million-scale datasets, our method also demonstrates superior data efficiency
and scalability. Our code and models are publicly available at
https://github.com/CVMI-Lab/SlotMIM.Summary
AI-Generated Summary