Heroverweging van Patch-afhankelijkheid voor Gemaskeerde Auto-encoders

Samenvatting

In dit werk onderzoeken we opnieuw de afhankelijkheden tussen patches in het decodeermechanisme van gemaskeerde autoencoders (MAE). We ontleden dit decodeermechanisme voor de reconstructie van gemaskeerde patches in MAE in zelf-attentie en kruis-attentie. Onze bevindingen suggereren dat zelf-attentie tussen gemaskeerde patches niet essentieel is voor het leren van goede representaties. Daarom stellen we een nieuw pretrainingsframework voor: Cross-Attention Masked Autoencoders (CrossMAE). Het decoder van CrossMAE maakt alleen gebruik van kruis-attentie tussen gemaskeerde en zichtbare tokens, zonder verlies in downstreamprestaties. Dit ontwerp maakt het ook mogelijk om slechts een kleine subset van gemaskeerde tokens te decoderen, wat de efficiëntie verhoogt. Bovendien kan elk decoderblok nu verschillende encoderfeatures benutten, wat resulteert in verbeterd representatie leren. CrossMAE evenaart de prestaties van MAE met 2,5 tot 3,7 keer minder decodeerrekenkracht. Het overtreft ook MAE op ImageNet-classificatie en COCO-instancesegmentatie onder dezelfde rekenkracht. Code en modellen: https://crossmae.github.io

English

In this work, we re-examine inter-patch dependencies in the decoding mechanism of masked autoencoders (MAE). We decompose this decoding mechanism for masked patch reconstruction in MAE into self-attention and cross-attention. Our investigations suggest that self-attention between mask patches is not essential for learning good representations. To this end, we propose a novel pretraining framework: Cross-Attention Masked Autoencoders (CrossMAE). CrossMAE's decoder leverages only cross-attention between masked and visible tokens, with no degradation in downstream performance. This design also enables decoding only a small subset of mask tokens, boosting efficiency. Furthermore, each decoder block can now leverage different encoder features, resulting in improved representation learning. CrossMAE matches MAE in performance with 2.5 to 3.7times less decoding compute. It also surpasses MAE on ImageNet classification and COCO instance segmentation under the same compute. Code and models: https://crossmae.github.io

Heroverweging van Patch-afhankelijkheid voor Gemaskeerde Auto-encoders

Rethinking Patch Dependence for Masked Autoencoders

Samenvatting

Support