ChatPaper.aiChatPaper

Emergencia de la segmentación con transformadores minimalistas de caja blanca

Emergence of Segmentation with Minimalistic White-Box Transformers

August 30, 2023
Autores: Yaodong Yu, Tianzhe Chu, Shengbang Tong, Ziyang Wu, Druv Pai, Sam Buchanan, Yi Ma
cs.AI

Resumen

Los modelos tipo Transformer para tareas de visión han demostrado recientemente ser efectivos en una amplia gama de aplicaciones posteriores, como segmentación y detección. Trabajos previos han mostrado que las propiedades de segmentación emergen en transformadores de visión (ViTs) entrenados utilizando métodos auto-supervisados como DINO, pero no en aquellos entrenados en tareas de clasificación supervisada. En este estudio, investigamos si la segmentación emerge en modelos basados en transformadores únicamente como resultado de mecanismos intrincados de aprendizaje auto-supervisado, o si la misma emergencia puede lograrse bajo condiciones mucho más amplias mediante un diseño adecuado de la arquitectura del modelo. A través de extensos resultados experimentales, demostramos que al emplear una arquitectura tipo Transformer de caja blanca conocida como CRATE, cuyo diseño modela y persigue explícitamente estructuras de baja dimensión en la distribución de datos, las propiedades de segmentación, tanto a nivel global como de partes, ya emergen con una receta de entrenamiento supervisado minimalista. Un análisis más detallado capa por capa revela que las propiedades emergentes corroboran fuertemente las funciones matemáticas diseñadas de la red de caja blanca. Nuestros resultados sugieren un camino para diseñar modelos fundamentales de caja blanca que sean simultáneamente altamente eficientes y matemáticamente completamente interpretables. El código está disponible en https://github.com/Ma-Lab-Berkeley/CRATE.
English
Transformer-like models for vision tasks have recently proven effective for a wide range of downstream applications such as segmentation and detection. Previous works have shown that segmentation properties emerge in vision transformers (ViTs) trained using self-supervised methods such as DINO, but not in those trained on supervised classification tasks. In this study, we probe whether segmentation emerges in transformer-based models solely as a result of intricate self-supervised learning mechanisms, or if the same emergence can be achieved under much broader conditions through proper design of the model architecture. Through extensive experimental results, we demonstrate that when employing a white-box transformer-like architecture known as CRATE, whose design explicitly models and pursues low-dimensional structures in the data distribution, segmentation properties, at both the whole and parts levels, already emerge with a minimalistic supervised training recipe. Layer-wise finer-grained analysis reveals that the emergent properties strongly corroborate the designed mathematical functions of the white-box network. Our results suggest a path to design white-box foundation models that are simultaneously highly performant and mathematically fully interpretable. Code is at https://github.com/Ma-Lab-Berkeley/CRATE.
PDF150December 15, 2024