VisionLLaMA: Una Interfaz Unificada de LLaMA para Tareas de VisiónVisionLLaMA: A Unified LLaMA Interface for Vision Tasks
Los grandes modelos de lenguaje están construidos sobre una arquitectura basada en transformadores para procesar entradas textuales. Por ejemplo, LLaMA destaca entre muchas implementaciones de código abierto. ¿Se puede utilizar el mismo transformador para procesar imágenes 2D? En este artículo, respondemos a esta pregunta presentando un transformador visual similar a LLaMA en formas plana y piramidal, denominado VisionLLaMA, que está diseñado específicamente para este propósito. VisionLLaMA es un marco de modelado unificado y genérico para resolver la mayoría de las tareas de visión. Evaluamos exhaustivamente su eficacia utilizando paradigmas típicos de preentrenamiento en una amplia gama de tareas posteriores de percepción de imágenes y, especialmente, de generación de imágenes. En muchos casos, VisionLLaMA ha mostrado mejoras significativas sobre los transformadores visuales más avanzados anteriores. Creemos que VisionLLaMA puede servir como un nuevo modelo de referencia sólido para la generación y comprensión visual. Nuestro código se publicará en https://github.com/Meituan-AutoML/VisionLLaMA.