ChatPaper.aiChatPaper

Anpassung des LLaMA-Decoders an den Vision Transformer.

Adapting LLaMA Decoder to Vision Transformer

April 10, 2024
Autoren: Jiahao Wang, Wenqi Shao, Mengzhao Chen, Chengyue Wu, Yong Liu, Kaipeng Zhang, Songyang Zhang, Kai Chen, Ping Luo
cs.AI

Zusammenfassung

Diese Arbeit untersucht, ob Decoder-only-Transformer wie LLaMA, die ursprünglich für große Sprachmodelle (LLMs) entwickelt wurden, an das Gebiet der Computer Vision angepasst werden können. Zunächst "LLaMAfizieren" wir einen Standard-ViT Schritt für Schritt, um ihn mit der Architektur von LLaMA in Einklang zu bringen, und stellen fest, dass die direkte Anwendung einer zufälligen Maske auf die Selbst-Aufmerksamkeit zu einem Aufmerksamkeitskollaps führt, der das Netzwerktraining scheitern lässt. Wir schlagen vor, das Klassentoken mit einer Post-Sequenz-Klassentoken-Technik hinter den Bildtokens neu zu positionieren, um diese Herausforderung zu überwinden und eine kausale Selbst-Aufmerksamkeit zu ermöglichen, die effizient die gesamten Bildinformationen erfasst. Darüber hinaus entwickeln wir eine Soft-Maskenstrategie, die schrittweise eine zufällige Maske auf die Selbst-Aufmerksamkeit zu Beginn des Trainings einführt, um das Optimierungsverhalten zu erleichtern. Das maßgeschneiderte Modell, genannt Bild LLaMA (iLLaMA), ähnelt LLaMA in der Architektur und ermöglicht direktes überwachtes Lernen. Seine kausale Selbst-Aufmerksamkeit steigert die Rechenleistung und lernt komplexe Darstellungen, indem sie die Rangfolge der Aufmerksamkeitskarten erhöht. iLLaMA konkurriert in der Leistung mit seinen Encoder-only-Gegenstücken und erreicht eine ImageNet-Top-1-Genauigkeit von 75,1% mit nur 5,7 Millionen Parametern. Durch Skalierung des Modells auf ~310 Millionen und Vor-Training auf ImageNet-21K wird die Genauigkeit weiter auf 86,0% verbessert. Umfangreiche Experimente zeigen die zuverlässigen Eigenschaften von iLLaMA: Kalibrierung, Form-Textur-Bias, Quantisierungskompatibilität, ADE20K-Segmentierung und CIFAR-Transferlernen. Wir hoffen, dass unsere Studie frische Ansichten zur visuellen Modellgestaltung in der Ära der LLMs inspirieren kann. Vorab trainierte Modelle und Codes sind hier verfügbar.
English
This work examines whether decoder-only Transformers such as LLaMA, which were originally designed for large language models (LLMs), can be adapted to the computer vision field. We first "LLaMAfy" a standard ViT step-by-step to align with LLaMA's architecture, and find that directly applying a casual mask to the self-attention brings an attention collapse issue, resulting in the failure to the network training. We suggest to reposition the class token behind the image tokens with a post-sequence class token technique to overcome this challenge, enabling causal self-attention to efficiently capture the entire image's information. Additionally, we develop a soft mask strategy that gradually introduces a casual mask to the self-attention at the onset of training to facilitate the optimization behavior. The tailored model, dubbed as image LLaMA (iLLaMA), is akin to LLaMA in architecture and enables direct supervised learning. Its causal self-attention boosts computational efficiency and learns complex representation by elevating attention map ranks. iLLaMA rivals the performance with its encoder-only counterparts, achieving 75.1% ImageNet top-1 accuracy with only 5.7M parameters. Scaling the model to ~310M and pre-training on ImageNet-21K further enhances the accuracy to 86.0%. Extensive experiments demonstrate iLLaMA's reliable properties: calibration, shape-texture bias, quantization compatibility, ADE20K segmentation and CIFAR transfer learning. We hope our study can kindle fresh views to visual model design in the wave of LLMs. Pre-trained models and codes are available here.

Summary

AI-Generated Summary

PDF181December 15, 2024