ChatPaper.aiChatPaper

Entstehung von Segmentierung mit minimalistischen White-Box-Transformatoren

Emergence of Segmentation with Minimalistic White-Box Transformers

August 30, 2023
Autoren: Yaodong Yu, Tianzhe Chu, Shengbang Tong, Ziyang Wu, Druv Pai, Sam Buchanan, Yi Ma
cs.AI

Zusammenfassung

Transformer-ähnliche Modelle für Vision-Aufgaben haben sich kürzlich als effektiv für eine Vielzahl von nachgelagerten Anwendungen wie Segmentierung und Detektion erwiesen. Frühere Arbeiten haben gezeigt, dass Segmentierungseigenschaften in Vision-Transformern (ViTs) auftreten, die mit selbstüberwachten Methoden wie DINO trainiert wurden, jedoch nicht in solchen, die auf überwachte Klassifikationsaufgaben trainiert wurden. In dieser Studie untersuchen wir, ob Segmentierung in transformer-basierten Modellen ausschließlich als Ergebnis komplexer selbstüberwachter Lernmechanismen entsteht oder ob dieselbe Entstehung unter viel breiteren Bedingungen durch eine geeignete Gestaltung der Modellarchitektur erreicht werden kann. Durch umfangreiche experimentelle Ergebnisse zeigen wir, dass bei Verwendung einer White-Box-Transformer-Architektur namens CRATE, deren Design explizit niedrigdimensionale Strukturen in der Datenverteilung modelliert und verfolgt, Segmentierungseigenschaften sowohl auf Gesamt- als auch auf Teilebene bereits mit einem minimalistischen überwachten Trainingsansatz entstehen. Eine schichtweise feinkörnigere Analyse zeigt, dass die emergenten Eigenschaften die entworfenen mathematischen Funktionen des White-Box-Netzwerks stark bestätigen. Unsere Ergebnisse deuten auf einen Weg hin, White-Box-Foundation-Modelle zu entwerfen, die gleichzeitig hochleistungsfähig und mathematisch vollständig interpretierbar sind. Der Code ist unter https://github.com/Ma-Lab-Berkeley/CRATE verfügbar.
English
Transformer-like models for vision tasks have recently proven effective for a wide range of downstream applications such as segmentation and detection. Previous works have shown that segmentation properties emerge in vision transformers (ViTs) trained using self-supervised methods such as DINO, but not in those trained on supervised classification tasks. In this study, we probe whether segmentation emerges in transformer-based models solely as a result of intricate self-supervised learning mechanisms, or if the same emergence can be achieved under much broader conditions through proper design of the model architecture. Through extensive experimental results, we demonstrate that when employing a white-box transformer-like architecture known as CRATE, whose design explicitly models and pursues low-dimensional structures in the data distribution, segmentation properties, at both the whole and parts levels, already emerge with a minimalistic supervised training recipe. Layer-wise finer-grained analysis reveals that the emergent properties strongly corroborate the designed mathematical functions of the white-box network. Our results suggest a path to design white-box foundation models that are simultaneously highly performant and mathematically fully interpretable. Code is at https://github.com/Ma-Lab-Berkeley/CRATE.
PDF150December 15, 2024