ChatPaper.aiChatPaper

Возникновение сегментации с минималистичными прозрачными трансформерами

Emergence of Segmentation with Minimalistic White-Box Transformers

August 30, 2023
Авторы: Yaodong Yu, Tianzhe Chu, Shengbang Tong, Ziyang Wu, Druv Pai, Sam Buchanan, Yi Ma
cs.AI

Аннотация

Трансформероподобные модели для задач компьютерного зрения недавно доказали свою эффективность в широком спектре приложений, таких как сегментация и детектирование. Предыдущие работы показали, что свойства сегментации проявляются в визуальных трансформерах (ViT), обученных с использованием методов самообучения, таких как DINO, но не в моделях, обученных на задачах классификации с учителем. В данном исследовании мы исследуем, возникает ли сегментация в трансформерных моделях исключительно как результат сложных механизмов самообучения, или же такое поведение может быть достигнуто в более широких условиях за счет правильного проектирования архитектуры модели. На основе обширных экспериментальных результатов мы демонстрируем, что при использовании архитектуры, подобной трансформеру, известной как CRATE, которая явно моделирует и стремится к низкоразмерным структурам в распределении данных, свойства сегментации, как на уровне целого, так и на уровне частей, возникают уже при минималистичном обучении с учителем. Более детальный анализ на уровне слоев показывает, что возникающие свойства сильно подтверждают заложенные математические функции архитектуры с прозрачной структурой. Наши результаты указывают путь к проектированию базовых моделей с прозрачной структурой, которые одновременно обладают высокой производительностью и полной математической интерпретируемостью. Код доступен по адресу https://github.com/Ma-Lab-Berkeley/CRATE.
English
Transformer-like models for vision tasks have recently proven effective for a wide range of downstream applications such as segmentation and detection. Previous works have shown that segmentation properties emerge in vision transformers (ViTs) trained using self-supervised methods such as DINO, but not in those trained on supervised classification tasks. In this study, we probe whether segmentation emerges in transformer-based models solely as a result of intricate self-supervised learning mechanisms, or if the same emergence can be achieved under much broader conditions through proper design of the model architecture. Through extensive experimental results, we demonstrate that when employing a white-box transformer-like architecture known as CRATE, whose design explicitly models and pursues low-dimensional structures in the data distribution, segmentation properties, at both the whole and parts levels, already emerge with a minimalistic supervised training recipe. Layer-wise finer-grained analysis reveals that the emergent properties strongly corroborate the designed mathematical functions of the white-box network. Our results suggest a path to design white-box foundation models that are simultaneously highly performant and mathematically fully interpretable. Code is at https://github.com/Ma-Lab-Berkeley/CRATE.
PDF150December 15, 2024