ChatPaper.aiChatPaper

VisionLLaMA : Une interface LLaMA unifiée pour les tâches de vision

VisionLLaMA: A Unified LLaMA Interface for Vision Tasks

March 1, 2024
Auteurs: Xiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen
cs.AI

Résumé

Les grands modèles de langage sont construits sur une architecture basée sur des transformateurs pour traiter des entrées textuelles. Par exemple, LLaMA se distingue parmi de nombreuses implémentations open-source. Le même transformateur peut-il être utilisé pour traiter des images 2D ? Dans cet article, nous répondons à cette question en dévoilant un transformateur visuel inspiré de LLaMA, sous des formes simples et pyramidales, nommé VisionLLaMA, conçu spécifiquement à cet effet. VisionLLaMA est un cadre de modélisation unifié et générique pour résoudre la plupart des tâches visuelles. Nous évaluons largement son efficacité en utilisant des paradigmes de pré-entraînement typiques sur une grande partie des tâches en aval de perception d'images, et particulièrement de génération d'images. Dans de nombreux cas, VisionLLaMA a montré des gains substantiels par rapport aux transformateurs visuels de pointe précédents. Nous pensons que VisionLLaMA peut servir de nouveau modèle de référence solide pour la génération et la compréhension visuelles. Notre code sera publié à l'adresse https://github.com/Meituan-AutoML/VisionLLaMA.
English
Large language models are built on top of a transformer-based architecture to process textual inputs. For example, the LLaMA stands out among many open-source implementations. Can the same transformer be used to process 2D images? In this paper, we answer this question by unveiling a LLaMA-like vision transformer in plain and pyramid forms, termed VisionLLaMA, which is tailored for this purpose. VisionLLaMA is a unified and generic modelling framework for solving most vision tasks. We extensively evaluate its effectiveness using typical pre-training paradigms in a good portion of downstream tasks of image perception and especially image generation. In many cases, VisionLLaMA have exhibited substantial gains over the previous state-of-the-art vision transformers. We believe that VisionLLaMA can serve as a strong new baseline model for vision generation and understanding. Our code will be released at https://github.com/Meituan-AutoML/VisionLLaMA.
PDF474December 15, 2024