Emergenza della segmentazione con trasformatori white-box minimalistici
Emergence of Segmentation with Minimalistic White-Box Transformers
August 30, 2023
Autori: Yaodong Yu, Tianzhe Chu, Shengbang Tong, Ziyang Wu, Druv Pai, Sam Buchanan, Yi Ma
cs.AI
Abstract
I modelli di tipo Transformer per compiti visivi si sono recentemente dimostrati efficaci per un'ampia gamma di applicazioni downstream come la segmentazione e il rilevamento. Precedenti lavori hanno mostrato che le proprietà di segmentazione emergono nei vision transformer (ViT) addestrati utilizzando metodi auto-supervisionati come DINO, ma non in quelli addestrati su compiti di classificazione supervisionata. In questo studio, indaghiamo se la segmentazione emerge nei modelli basati su Transformer esclusivamente come risultato di meccanismi complessi di apprendimento auto-supervisionato, o se la stessa emergenza possa essere ottenuta in condizioni molto più ampie attraverso un corretto design dell'architettura del modello. Attraverso risultati sperimentali estesi, dimostriamo che quando si utilizza un'architettura di tipo Transformer nota come CRATE, il cui design modella e persegue esplicitamente strutture a bassa dimensione nella distribuzione dei dati, le proprietà di segmentazione, sia a livello globale che delle parti, emergono già con una ricetta di addestramento supervisionato minimalista. Un'analisi più granulare livello per livello rivela che le proprietà emergenti corroborano fortemente le funzioni matematiche progettate della rete white-box. I nostri risultati suggeriscono una strada per progettare modelli di base white-box che siano simultaneamente altamente performanti e matematicamente completamente interpretabili. Il codice è disponibile su https://github.com/Ma-Lab-Berkeley/CRATE.
English
Transformer-like models for vision tasks have recently proven effective for a
wide range of downstream applications such as segmentation and detection.
Previous works have shown that segmentation properties emerge in vision
transformers (ViTs) trained using self-supervised methods such as DINO, but not
in those trained on supervised classification tasks. In this study, we probe
whether segmentation emerges in transformer-based models solely as a result of
intricate self-supervised learning mechanisms, or if the same emergence can be
achieved under much broader conditions through proper design of the model
architecture. Through extensive experimental results, we demonstrate that when
employing a white-box transformer-like architecture known as CRATE, whose
design explicitly models and pursues low-dimensional structures in the data
distribution, segmentation properties, at both the whole and parts levels,
already emerge with a minimalistic supervised training recipe. Layer-wise
finer-grained analysis reveals that the emergent properties strongly
corroborate the designed mathematical functions of the white-box network. Our
results suggest a path to design white-box foundation models that are
simultaneously highly performant and mathematically fully interpretable. Code
is at https://github.com/Ma-Lab-Berkeley/CRATE.