VisionLLaMA: Una Interfaz Unificada de LLaMA para Tareas de Visión
VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
March 1, 2024
Autores: Xiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen
cs.AI
Resumen
Los grandes modelos de lenguaje están construidos sobre una arquitectura basada en transformadores para procesar entradas textuales. Por ejemplo, LLaMA destaca entre muchas implementaciones de código abierto. ¿Se puede utilizar el mismo transformador para procesar imágenes 2D? En este artículo, respondemos a esta pregunta presentando un transformador visual similar a LLaMA en formas plana y piramidal, denominado VisionLLaMA, que está diseñado específicamente para este propósito. VisionLLaMA es un marco de modelado unificado y genérico para resolver la mayoría de las tareas de visión. Evaluamos exhaustivamente su eficacia utilizando paradigmas típicos de preentrenamiento en una amplia gama de tareas posteriores de percepción de imágenes y, especialmente, de generación de imágenes. En muchos casos, VisionLLaMA ha mostrado mejoras significativas sobre los transformadores visuales más avanzados anteriores. Creemos que VisionLLaMA puede servir como un nuevo modelo de referencia sólido para la generación y comprensión visual. Nuestro código se publicará en https://github.com/Meituan-AutoML/VisionLLaMA.
English
Large language models are built on top of a transformer-based architecture to
process textual inputs. For example, the LLaMA stands out among many
open-source implementations. Can the same transformer be used to process 2D
images? In this paper, we answer this question by unveiling a LLaMA-like vision
transformer in plain and pyramid forms, termed VisionLLaMA, which is tailored
for this purpose. VisionLLaMA is a unified and generic modelling framework for
solving most vision tasks. We extensively evaluate its effectiveness using
typical pre-training paradigms in a good portion of downstream tasks of image
perception and especially image generation. In many cases, VisionLLaMA have
exhibited substantial gains over the previous state-of-the-art vision
transformers. We believe that VisionLLaMA can serve as a strong new baseline
model for vision generation and understanding. Our code will be released at
https://github.com/Meituan-AutoML/VisionLLaMA.