最小限のホワイトボックストランスフォーマーによるセグメンテーションの出現
Emergence of Segmentation with Minimalistic White-Box Transformers
August 30, 2023
著者: Yaodong Yu, Tianzhe Chu, Shengbang Tong, Ziyang Wu, Druv Pai, Sam Buchanan, Yi Ma
cs.AI
要旨
視覚タスク向けのTransformerモデルは、セグメンテーションや検出などの多様な下流アプリケーションにおいて最近効果的であることが証明されています。これまでの研究では、DINOのような自己教師あり手法で訓練された視覚Transformer(ViT)にセグメンテーション特性が現れることが示されていますが、教師あり分類タスクで訓練されたものには現れません。本研究では、Transformerベースのモデルにおけるセグメンテーション特性の出現が、複雑な自己教師あり学習メカニズムの結果としてのみ生じるのか、あるいはモデルアーキテクチャの適切な設計を通じてより広範な条件下でも同じ特性が達成可能かどうかを探ります。広範な実験結果を通じて、データ分布の低次元構造を明示的にモデル化し追求するホワイトボックスTransformerアーキテクチャであるCRATEを採用した場合、最小限の教師あり訓練レシピでも全体レベルおよび部分レベルのセグメンテーション特性が既に現れることを実証します。層ごとの詳細な分析により、出現する特性がホワイトボックスネットワークの設計された数学的関数と強く一致することが明らかになりました。これらの結果は、高い性能と数学的に完全に解釈可能なホワイトボックス基盤モデルを設計するための道筋を示唆しています。コードはhttps://github.com/Ma-Lab-Berkeley/CRATEにあります。
English
Transformer-like models for vision tasks have recently proven effective for a
wide range of downstream applications such as segmentation and detection.
Previous works have shown that segmentation properties emerge in vision
transformers (ViTs) trained using self-supervised methods such as DINO, but not
in those trained on supervised classification tasks. In this study, we probe
whether segmentation emerges in transformer-based models solely as a result of
intricate self-supervised learning mechanisms, or if the same emergence can be
achieved under much broader conditions through proper design of the model
architecture. Through extensive experimental results, we demonstrate that when
employing a white-box transformer-like architecture known as CRATE, whose
design explicitly models and pursues low-dimensional structures in the data
distribution, segmentation properties, at both the whole and parts levels,
already emerge with a minimalistic supervised training recipe. Layer-wise
finer-grained analysis reveals that the emergent properties strongly
corroborate the designed mathematical functions of the white-box network. Our
results suggest a path to design white-box foundation models that are
simultaneously highly performant and mathematically fully interpretable. Code
is at https://github.com/Ma-Lab-Berkeley/CRATE.