Heroverweging van Patch-afhankelijkheid voor Gemaskeerde Auto-encoders
Rethinking Patch Dependence for Masked Autoencoders
January 25, 2024
Auteurs: Letian Fu, Long Lian, Renhao Wang, Baifeng Shi, Xudong Wang, Adam Yala, Trevor Darrell, Alexei A. Efros, Ken Goldberg
cs.AI
Samenvatting
In dit werk onderzoeken we opnieuw de afhankelijkheden tussen patches in het decodeermechanisme van gemaskeerde autoencoders (MAE). We ontleden dit decodeermechanisme voor de reconstructie van gemaskeerde patches in MAE in zelf-attentie en kruis-attentie. Onze bevindingen suggereren dat zelf-attentie tussen gemaskeerde patches niet essentieel is voor het leren van goede representaties. Daarom stellen we een nieuw pretrainingsframework voor: Cross-Attention Masked Autoencoders (CrossMAE). Het decoder van CrossMAE maakt alleen gebruik van kruis-attentie tussen gemaskeerde en zichtbare tokens, zonder verlies in downstreamprestaties. Dit ontwerp maakt het ook mogelijk om slechts een kleine subset van gemaskeerde tokens te decoderen, wat de efficiëntie verhoogt. Bovendien kan elk decoderblok nu verschillende encoderfeatures benutten, wat resulteert in verbeterd representatie leren. CrossMAE evenaart de prestaties van MAE met 2,5 tot 3,7 keer minder decodeerrekenkracht. Het overtreft ook MAE op ImageNet-classificatie en COCO-instancesegmentatie onder dezelfde rekenkracht. Code en modellen: https://crossmae.github.io
English
In this work, we re-examine inter-patch dependencies in the decoding
mechanism of masked autoencoders (MAE). We decompose this decoding mechanism
for masked patch reconstruction in MAE into self-attention and cross-attention.
Our investigations suggest that self-attention between mask patches is not
essential for learning good representations. To this end, we propose a novel
pretraining framework: Cross-Attention Masked Autoencoders (CrossMAE).
CrossMAE's decoder leverages only cross-attention between masked and visible
tokens, with no degradation in downstream performance. This design also enables
decoding only a small subset of mask tokens, boosting efficiency. Furthermore,
each decoder block can now leverage different encoder features, resulting in
improved representation learning. CrossMAE matches MAE in performance with 2.5
to 3.7times less decoding compute. It also surpasses MAE on ImageNet
classification and COCO instance segmentation under the same compute. Code and
models: https://crossmae.github.io