Adaptando o Decodificador LLaMA ao Transformer de Visão

Resumo

Este trabalho investiga se Transformers apenas de decodificação, como o LLaMA, originalmente projetados para grandes modelos de linguagem (LLMs), podem ser adaptados ao campo da visão computacional. Primeiro, "LLaMAficamos" um ViT padrão passo a passo para alinhá-lo à arquitetura do LLaMA, e descobrimos que a aplicação direta de uma máscara causal à auto-atenção causa um problema de colapso da atenção, resultando na falha do treinamento da rede. Sugerimos reposicionar o token de classe após os tokens da imagem com uma técnica de token de classe pós-sequência para superar esse desafio, permitindo que a auto-atenção causal capture eficientemente toda a informação da imagem. Além disso, desenvolvemos uma estratégia de máscara suave que introduz gradualmente uma máscara causal à auto-atenção no início do treinamento para facilitar o comportamento de otimização. O modelo personalizado, denominado image LLaMA (iLLaMA), é semelhante ao LLaMA em arquitetura e permite aprendizado supervisionado direto. Sua auto-atenção causal aumenta a eficiência computacional e aprende representações complexas ao elevar os ranks dos mapas de atenção. O iLLaMA rivaliza com o desempenho de seus equivalentes apenas de codificação, alcançando 75,1% de precisão top-1 no ImageNet com apenas 5,7M de parâmetros. Escalar o modelo para ~310M e pré-treiná-lo no ImageNet-21K aumenta ainda mais a precisão para 86,0%. Experimentos extensivos demonstram as propriedades confiáveis do iLLaMA: calibração, viés de forma-textura, compatibilidade com quantização, segmentação ADE20K e transferência de aprendizado CIFAR. Esperamos que nosso estudo possa inspirar novas perspectivas no design de modelos visuais na onda dos LLMs. Modelos pré-treinados e códigos estão disponíveis aqui.

English

This work examines whether decoder-only Transformers such as LLaMA, which were originally designed for large language models (LLMs), can be adapted to the computer vision field. We first "LLaMAfy" a standard ViT step-by-step to align with LLaMA's architecture, and find that directly applying a casual mask to the self-attention brings an attention collapse issue, resulting in the failure to the network training. We suggest to reposition the class token behind the image tokens with a post-sequence class token technique to overcome this challenge, enabling causal self-attention to efficiently capture the entire image's information. Additionally, we develop a soft mask strategy that gradually introduces a casual mask to the self-attention at the onset of training to facilitate the optimization behavior. The tailored model, dubbed as image LLaMA (iLLaMA), is akin to LLaMA in architecture and enables direct supervised learning. Its causal self-attention boosts computational efficiency and learns complex representation by elevating attention map ranks. iLLaMA rivals the performance with its encoder-only counterparts, achieving 75.1% ImageNet top-1 accuracy with only 5.7M parameters. Scaling the model to ~310M and pre-training on ImageNet-21K further enhances the accuracy to 86.0%. Extensive experiments demonstrate iLLaMA's reliable properties: calibration, shape-texture bias, quantization compatibility, ADE20K segmentation and CIFAR transfer learning. We hope our study can kindle fresh views to visual model design in the wave of LLMs. Pre-trained models and codes are available here.

Adaptando o Decodificador LLaMA ao Transformer de Visão

Adapting LLaMA Decoder to Vision Transformer

Resumo

Support