Het ontstaan van segmentatie met minimalistische white-box transformers
Emergence of Segmentation with Minimalistic White-Box Transformers
August 30, 2023
Auteurs: Yaodong Yu, Tianzhe Chu, Shengbang Tong, Ziyang Wu, Druv Pai, Sam Buchanan, Yi Ma
cs.AI
Samenvatting
Transformer-achtige modellen voor visuele taken hebben recentelijk hun effectiviteit bewezen voor een breed scala aan downstream-toepassingen, zoals segmentatie en detectie. Eerdere studies hebben aangetoond dat segmentatie-eigenschappen naar voren komen in vision transformers (ViTs) die getraind zijn met zelfsupervisie methoden zoals DINO, maar niet in modellen die getraind zijn op gesuperviseerde classificatietaken. In deze studie onderzoeken we of segmentatie in transformer-gebaseerde modellen uitsluitend ontstaat als gevolg van ingewikkelde zelfsupervisie leer-mechanismen, of dat hetzelfde effect bereikt kan worden onder veel bredere voorwaarden door een juist ontwerp van de modelarchitectuur. Door middel van uitgebreide experimentele resultaten tonen we aan dat bij het gebruik van een white-box transformer-achtige architectuur, genaamd CRATE, waarvan het ontwerp expliciet laagdimensionale structuren in de dataverdeling modelleert en nastreeft, segmentatie-eigenschappen, zowel op het niveau van het geheel als van onderdelen, al naar voren komen met een minimalistische gesuperviseerde trainingsmethode. Een fijnmazige analyse per laag onthult dat de opkomende eigenschappen sterk overeenkomen met de ontworpen wiskundige functies van het white-box netwerk. Onze resultaten suggereren een pad naar het ontwerpen van white-box foundation modellen die tegelijkertijd zeer presterend en wiskundig volledig interpreteerbaar zijn. De code is beschikbaar op https://github.com/Ma-Lab-Berkeley/CRATE.
English
Transformer-like models for vision tasks have recently proven effective for a
wide range of downstream applications such as segmentation and detection.
Previous works have shown that segmentation properties emerge in vision
transformers (ViTs) trained using self-supervised methods such as DINO, but not
in those trained on supervised classification tasks. In this study, we probe
whether segmentation emerges in transformer-based models solely as a result of
intricate self-supervised learning mechanisms, or if the same emergence can be
achieved under much broader conditions through proper design of the model
architecture. Through extensive experimental results, we demonstrate that when
employing a white-box transformer-like architecture known as CRATE, whose
design explicitly models and pursues low-dimensional structures in the data
distribution, segmentation properties, at both the whole and parts levels,
already emerge with a minimalistic supervised training recipe. Layer-wise
finer-grained analysis reveals that the emergent properties strongly
corroborate the designed mathematical functions of the white-box network. Our
results suggest a path to design white-box foundation models that are
simultaneously highly performant and mathematically fully interpretable. Code
is at https://github.com/Ma-Lab-Berkeley/CRATE.