Una Rivisitazione Centrata sui Dati dei Modelli Visivi Pre-Addestrati per l'Apprendimento Robotico
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning
March 10, 2025
Autori: Xin Wen, Bingchen Zhao, Yilun Chen, Jiangmiao Pang, Xiaojuan Qi
cs.AI
Abstract
I modelli vision pre-addestrati (PVMs) sono fondamentali per la robotica moderna, ma la loro configurazione ottimale rimane poco chiara. Attraverso una valutazione sistematica, abbiamo scoperto che, sebbene DINO e iBOT superino MAE nelle attività di controllo visuomotorio e percezione, faticano quando vengono addestrati su dati non-(single-)object-centric (NOC) - una limitazione fortemente correlata alla loro ridotta capacità di apprendere rappresentazioni object-centric. Questa indagine indica che la capacità di formare rappresentazioni object-centric a partire da dataset robotici non object-centric è la chiave del successo per i PVMs. Motivati da questa scoperta, abbiamo progettato SlotMIM, un metodo che induce rappresentazioni object-centric introducendo un collo di bottiglia semantico per ridurre il numero di prototipi e favorire l'emergere dell'objectness, nonché una regolarizzazione della consistenza cross-view per incoraggiare l'invarianza multiview. I nostri esperimenti comprendono il pre-addestramento su dati object-centric, scene-centric, web-crawled ed ego-centric. In tutti gli scenari, il nostro approccio apprende rappresentazioni trasferibili e ottiene miglioramenti significativi rispetto ai lavori precedenti nelle valutazioni di riconoscimento delle immagini, comprensione delle scene e apprendimento robotico. Quando scalato con dataset su scala milioni, il nostro metodo dimostra anche una superiore efficienza dei dati e scalabilità. Il nostro codice e i modelli sono disponibili pubblicamente all'indirizzo https://github.com/CVMI-Lab/SlotMIM.
English
Pre-trained vision models (PVMs) are fundamental to modern robotics, yet
their optimal configuration remains unclear. Through systematic evaluation, we
find that while DINO and iBOT outperform MAE across visuomotor control and
perception tasks, they struggle when trained on non-(single-)object-centric
(NOC) data--a limitation strongly correlated with their diminished ability to
learn object-centric representations. This investigation indicates that the
ability to form object-centric representations from the non-object-centric
robotics dataset is the key to success for PVMs. Motivated by this discovery,
we designed SlotMIM, a method that induces object-centric representations by
introducing a semantic bottleneck to reduce the number of prototypes to
encourage the emergence of objectness as well as cross-view consistency
regularization for encouraging multiview invariance. Our experiments encompass
pre-training on object-centric, scene-centric, web-crawled, and ego-centric
data. Across all settings, our approach learns transferrable representations
and achieves significant improvements over prior work in image recognition,
scene understanding, and robot learning evaluations. When scaled up with
million-scale datasets, our method also demonstrates superior data efficiency
and scalability. Our code and models are publicly available at
https://github.com/CVMI-Lab/SlotMIM.Summary
AI-Generated Summary