ChatPaper.aiChatPaper

Адаптация декодера LLaMA для Vision Transformer.

Adapting LLaMA Decoder to Vision Transformer

April 10, 2024
Авторы: Jiahao Wang, Wenqi Shao, Mengzhao Chen, Chengyue Wu, Yong Liu, Kaipeng Zhang, Songyang Zhang, Kai Chen, Ping Luo
cs.AI

Аннотация

Эта работа исследует, можно ли адаптировать декодерные трансформеры, такие как LLaMA, которые изначально были разработаны для больших языковых моделей (LLM), к области компьютерного зрения. Сначала мы "LLaMAизируем" стандартный ViT пошагово, чтобы выровнять его с архитектурой LLaMA, и обнаруживаем, что прямое применение случайной маски к самовниманию вызывает проблему коллапса внимания, что приводит к сбою в обучении сети. Мы предлагаем переместить токен класса за токены изображения с помощью техники токена класса после последовательности, чтобы преодолеть этот вызов, обеспечивая эффективное захватывание всей информации об изображении с помощью причинного самовнимания. Кроме того, мы разрабатываем стратегию мягкой маски, которая постепенно вводит случайную маску в самовнимание в начале обучения, чтобы облегчить оптимизационное поведение. Адаптированная модель, названная моделью изображения LLaMA (iLLaMA), аналогична LLaMA по архитектуре и позволяет прямое обучение с учителем. Ее причинное самовнимание повышает вычислительную эффективность и изучает сложное представление, повышая ранги карт внимания. iLLaMA соперничает с производительностью своих моделей только с энкодером, достигая точности ImageNet top-1 в 75,1% с всего 5,7 миллионами параметров. Масштабирование модели до ~310 миллионов и предварительное обучение на ImageNet-21K дополнительно повышает точность до 86,0%. Обширные эксперименты демонстрируют надежные свойства iLLaMA: калибровку, предвзятость к форме и текстуре, совместимость с квантованием, сегментацию ADE20K и обучение на переносе CIFAR. Мы надеемся, что наше исследование может пробудить новые взгляды на проектирование визуальных моделей в эпоху LLM. Предварительно обученные модели и коды доступны здесь.
English
This work examines whether decoder-only Transformers such as LLaMA, which were originally designed for large language models (LLMs), can be adapted to the computer vision field. We first "LLaMAfy" a standard ViT step-by-step to align with LLaMA's architecture, and find that directly applying a casual mask to the self-attention brings an attention collapse issue, resulting in the failure to the network training. We suggest to reposition the class token behind the image tokens with a post-sequence class token technique to overcome this challenge, enabling causal self-attention to efficiently capture the entire image's information. Additionally, we develop a soft mask strategy that gradually introduces a casual mask to the self-attention at the onset of training to facilitate the optimization behavior. The tailored model, dubbed as image LLaMA (iLLaMA), is akin to LLaMA in architecture and enables direct supervised learning. Its causal self-attention boosts computational efficiency and learns complex representation by elevating attention map ranks. iLLaMA rivals the performance with its encoder-only counterparts, achieving 75.1% ImageNet top-1 accuracy with only 5.7M parameters. Scaling the model to ~310M and pre-training on ImageNet-21K further enhances the accuracy to 86.0%. Extensive experiments demonstrate iLLaMA's reliable properties: calibration, shape-texture bias, quantization compatibility, ADE20K segmentation and CIFAR transfer learning. We hope our study can kindle fresh views to visual model design in the wave of LLMs. Pre-trained models and codes are available here.

Summary

AI-Generated Summary

PDF181December 15, 2024