Una Rivisitazione Centrata sui Dati dei Modelli Visivi Pre-Addestrati per l'Apprendimento Robotico

Abstract

I modelli vision pre-addestrati (PVMs) sono fondamentali per la robotica moderna, ma la loro configurazione ottimale rimane poco chiara. Attraverso una valutazione sistematica, abbiamo scoperto che, sebbene DINO e iBOT superino MAE nelle attività di controllo visuomotorio e percezione, faticano quando vengono addestrati su dati non-(single-)object-centric (NOC) - una limitazione fortemente correlata alla loro ridotta capacità di apprendere rappresentazioni object-centric. Questa indagine indica che la capacità di formare rappresentazioni object-centric a partire da dataset robotici non object-centric è la chiave del successo per i PVMs. Motivati da questa scoperta, abbiamo progettato SlotMIM, un metodo che induce rappresentazioni object-centric introducendo un collo di bottiglia semantico per ridurre il numero di prototipi e favorire l'emergere dell'objectness, nonché una regolarizzazione della consistenza cross-view per incoraggiare l'invarianza multiview. I nostri esperimenti comprendono il pre-addestramento su dati object-centric, scene-centric, web-crawled ed ego-centric. In tutti gli scenari, il nostro approccio apprende rappresentazioni trasferibili e ottiene miglioramenti significativi rispetto ai lavori precedenti nelle valutazioni di riconoscimento delle immagini, comprensione delle scene e apprendimento robotico. Quando scalato con dataset su scala milioni, il nostro metodo dimostra anche una superiore efficienza dei dati e scalabilità. Il nostro codice e i modelli sono disponibili pubblicamente all'indirizzo https://github.com/CVMI-Lab/SlotMIM.

English

Pre-trained vision models (PVMs) are fundamental to modern robotics, yet their optimal configuration remains unclear. Through systematic evaluation, we find that while DINO and iBOT outperform MAE across visuomotor control and perception tasks, they struggle when trained on non-(single-)object-centric (NOC) data--a limitation strongly correlated with their diminished ability to learn object-centric representations. This investigation indicates that the ability to form object-centric representations from the non-object-centric robotics dataset is the key to success for PVMs. Motivated by this discovery, we designed SlotMIM, a method that induces object-centric representations by introducing a semantic bottleneck to reduce the number of prototypes to encourage the emergence of objectness as well as cross-view consistency regularization for encouraging multiview invariance. Our experiments encompass pre-training on object-centric, scene-centric, web-crawled, and ego-centric data. Across all settings, our approach learns transferrable representations and achieves significant improvements over prior work in image recognition, scene understanding, and robot learning evaluations. When scaled up with million-scale datasets, our method also demonstrates superior data efficiency and scalability. Our code and models are publicly available at https://github.com/CVMI-Lab/SlotMIM.

Una Rivisitazione Centrata sui Dati dei Modelli Visivi Pre-Addestrati per l'Apprendimento Robotico

A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning

Abstract

Support