VisionLLaMA: Uma Interface Unificada LLaMA para Tarefas Visuais
VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
March 1, 2024
Autores: Xiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen
cs.AI
Resumo
Modelos de linguagem de grande escala são construídos sobre uma arquitetura baseada em transformadores para processar entradas textuais. Por exemplo, o LLaMA se destaca entre muitas implementações de código aberto. O mesmo transformador pode ser usado para processar imagens 2D? Neste artigo, respondemos a essa questão ao apresentar um transformador de visão semelhante ao LLaMA, em formas simples e piramidais, denominado VisionLLaMA, que foi projetado especificamente para esse propósito. O VisionLLaMA é uma estrutura de modelagem unificada e genérica para resolver a maioria das tarefas de visão. Avaliamos extensivamente sua eficácia utilizando paradigmas típicos de pré-treinamento em uma ampla gama de tarefas subsequentes de percepção de imagem e, especialmente, de geração de imagens. Em muitos casos, o VisionLLaMA demonstrou ganhos substanciais em relação aos transformadores de visão de última geração anteriores. Acreditamos que o VisionLLaMA pode servir como um novo modelo de linha de base robusto para geração e compreensão de visão. Nosso código será liberado em https://github.com/Meituan-AutoML/VisionLLaMA.
English
Large language models are built on top of a transformer-based architecture to
process textual inputs. For example, the LLaMA stands out among many
open-source implementations. Can the same transformer be used to process 2D
images? In this paper, we answer this question by unveiling a LLaMA-like vision
transformer in plain and pyramid forms, termed VisionLLaMA, which is tailored
for this purpose. VisionLLaMA is a unified and generic modelling framework for
solving most vision tasks. We extensively evaluate its effectiveness using
typical pre-training paradigms in a good portion of downstream tasks of image
perception and especially image generation. In many cases, VisionLLaMA have
exhibited substantial gains over the previous state-of-the-art vision
transformers. We believe that VisionLLaMA can serve as a strong new baseline
model for vision generation and understanding. Our code will be released at
https://github.com/Meituan-AutoML/VisionLLaMA.