Adaptando o Decodificador LLaMA ao Transformer de Visão
Adapting LLaMA Decoder to Vision Transformer
April 10, 2024
Autores: Jiahao Wang, Wenqi Shao, Mengzhao Chen, Chengyue Wu, Yong Liu, Kaipeng Zhang, Songyang Zhang, Kai Chen, Ping Luo
cs.AI
Resumo
Este trabalho investiga se Transformers apenas de decodificação, como o LLaMA, originalmente projetados para grandes modelos de linguagem (LLMs), podem ser adaptados ao campo da visão computacional. Primeiro, "LLaMAficamos" um ViT padrão passo a passo para alinhá-lo à arquitetura do LLaMA, e descobrimos que a aplicação direta de uma máscara causal à auto-atenção causa um problema de colapso da atenção, resultando na falha do treinamento da rede. Sugerimos reposicionar o token de classe após os tokens da imagem com uma técnica de token de classe pós-sequência para superar esse desafio, permitindo que a auto-atenção causal capture eficientemente toda a informação da imagem. Além disso, desenvolvemos uma estratégia de máscara suave que introduz gradualmente uma máscara causal à auto-atenção no início do treinamento para facilitar o comportamento de otimização. O modelo personalizado, denominado image LLaMA (iLLaMA), é semelhante ao LLaMA em arquitetura e permite aprendizado supervisionado direto. Sua auto-atenção causal aumenta a eficiência computacional e aprende representações complexas ao elevar os ranks dos mapas de atenção. O iLLaMA rivaliza com o desempenho de seus equivalentes apenas de codificação, alcançando 75,1% de precisão top-1 no ImageNet com apenas 5,7M de parâmetros. Escalar o modelo para ~310M e pré-treiná-lo no ImageNet-21K aumenta ainda mais a precisão para 86,0%. Experimentos extensivos demonstram as propriedades confiáveis do iLLaMA: calibração, viés de forma-textura, compatibilidade com quantização, segmentação ADE20K e transferência de aprendizado CIFAR. Esperamos que nosso estudo possa inspirar novas perspectivas no design de modelos visuais na onda dos LLMs. Modelos pré-treinados e códigos estão disponíveis aqui.
English
This work examines whether decoder-only Transformers such as LLaMA, which
were originally designed for large language models (LLMs), can be adapted to
the computer vision field. We first "LLaMAfy" a standard ViT step-by-step to
align with LLaMA's architecture, and find that directly applying a casual mask
to the self-attention brings an attention collapse issue, resulting in the
failure to the network training. We suggest to reposition the class token
behind the image tokens with a post-sequence class token technique to overcome
this challenge, enabling causal self-attention to efficiently capture the
entire image's information. Additionally, we develop a soft mask strategy that
gradually introduces a casual mask to the self-attention at the onset of
training to facilitate the optimization behavior. The tailored model, dubbed as
image LLaMA (iLLaMA), is akin to LLaMA in architecture and enables direct
supervised learning. Its causal self-attention boosts computational efficiency
and learns complex representation by elevating attention map ranks. iLLaMA
rivals the performance with its encoder-only counterparts, achieving 75.1%
ImageNet top-1 accuracy with only 5.7M parameters. Scaling the model to ~310M
and pre-training on ImageNet-21K further enhances the accuracy to 86.0%.
Extensive experiments demonstrate iLLaMA's reliable properties: calibration,
shape-texture bias, quantization compatibility, ADE20K segmentation and CIFAR
transfer learning. We hope our study can kindle fresh views to visual model
design in the wave of LLMs. Pre-trained models and codes are available here.