ChatPaper.aiChatPaper

Softmax vervangen door ReLU in Vision Transformers

Replacing softmax with ReLU in Vision Transformers

September 15, 2023
Auteurs: Mitchell Wortsman, Jaehoon Lee, Justin Gilmer, Simon Kornblith
cs.AI

Samenvatting

Eerder onderzoek constateerde een afname in nauwkeurigheid bij het vervangen van de softmax-attentie door een puntgewijze activatie zoals ReLU. In de context van vision-transformers ontdekken we dat deze afname wordt verminderd wanneer gedeeld wordt door de sequentielengte. Onze experimenten met het trainen van kleine tot grote vision-transformers op ImageNet-21k geven aan dat ReLU-attentie de prestaties van softmax-attentie kan benaderen of evenaren wat betreft schaalgedrag als functie van rekenkracht.
English
Previous research observed accuracy degradation when replacing the attention softmax with a point-wise activation such as ReLU. In the context of vision transformers, we find that this degradation is mitigated when dividing by sequence length. Our experiments training small to large vision transformers on ImageNet-21k indicate that ReLU-attention can approach or match the performance of softmax-attention in terms of scaling behavior as a function of compute.
PDF180December 15, 2024