ChatPaper.aiChatPaper

Emergência de Segmentação com Transformadores Minimalistas de Caixa Branca

Emergence of Segmentation with Minimalistic White-Box Transformers

August 30, 2023
Autores: Yaodong Yu, Tianzhe Chu, Shengbang Tong, Ziyang Wu, Druv Pai, Sam Buchanan, Yi Ma
cs.AI

Resumo

Modelos semelhantes a Transformers para tarefas visuais têm se mostrado recentemente eficazes para uma ampla gama de aplicações downstream, como segmentação e detecção. Trabalhos anteriores demonstraram que propriedades de segmentação emergem em Transformers visuais (ViTs) treinados usando métodos auto-supervisionados como o DINO, mas não naqueles treinados em tarefas de classificação supervisionada. Neste estudo, investigamos se a segmentação emerge em modelos baseados em Transformers unicamente como resultado de mecanismos intrincados de aprendizado auto-supervisionado, ou se a mesma emergência pode ser alcançada sob condições muito mais amplas através de um design adequado da arquitetura do modelo. Por meio de resultados experimentais extensivos, demonstramos que, ao empregar uma arquitetura semelhante a Transformer conhecida como CRATE, cujo design modela e busca explicitamente estruturas de baixa dimensão na distribuição de dados, propriedades de segmentação, tanto em nível global quanto de partes, já emergem com uma receita de treinamento supervisionado minimalista. Análises mais refinadas camada por camada revelam que as propriedades emergentes corroboram fortemente as funções matemáticas projetadas da rede de caixa branca. Nossos resultados sugerem um caminho para projetar modelos fundamentais de caixa branca que são simultaneamente altamente performáticos e matematicamente totalmente interpretáveis. O código está disponível em https://github.com/Ma-Lab-Berkeley/CRATE.
English
Transformer-like models for vision tasks have recently proven effective for a wide range of downstream applications such as segmentation and detection. Previous works have shown that segmentation properties emerge in vision transformers (ViTs) trained using self-supervised methods such as DINO, but not in those trained on supervised classification tasks. In this study, we probe whether segmentation emerges in transformer-based models solely as a result of intricate self-supervised learning mechanisms, or if the same emergence can be achieved under much broader conditions through proper design of the model architecture. Through extensive experimental results, we demonstrate that when employing a white-box transformer-like architecture known as CRATE, whose design explicitly models and pursues low-dimensional structures in the data distribution, segmentation properties, at both the whole and parts levels, already emerge with a minimalistic supervised training recipe. Layer-wise finer-grained analysis reveals that the emergent properties strongly corroborate the designed mathematical functions of the white-box network. Our results suggest a path to design white-box foundation models that are simultaneously highly performant and mathematically fully interpretable. Code is at https://github.com/Ma-Lab-Berkeley/CRATE.
PDF160February 9, 2026