VisionLLaMA: Un'interfaccia LLaMA unificata per compiti visivi
VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
March 1, 2024
Autori: Xiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen
cs.AI
Abstract
I grandi modelli linguistici sono costruiti su un'architettura basata su trasformatori per elaborare input testuali. Ad esempio, LLaMA si distingue tra le molte implementazioni open-source. È possibile utilizzare lo stesso trasformatore per elaborare immagini 2D? In questo articolo, rispondiamo a questa domanda presentando un trasformatore visivo simile a LLaMA in forme semplici e piramidali, denominato VisionLLaMA, progettato specificamente per questo scopo. VisionLLaMA è un framework di modellazione unificato e generico per risolvere la maggior parte delle attività visive. Valutiamo ampiamente la sua efficacia utilizzando paradigmi di pre-addestramento tipici in una buona parte di attività downstream di percezione delle immagini e, in particolare, di generazione di immagini. In molti casi, VisionLLaMA ha mostrato miglioramenti significativi rispetto ai precedenti trasformatori visivi all'avanguardia. Crediamo che VisionLLaMA possa servire come un nuovo e solido modello di base per la generazione e la comprensione visiva. Il nostro codice sarà rilasciato su https://github.com/Meituan-AutoML/VisionLLaMA.
English
Large language models are built on top of a transformer-based architecture to
process textual inputs. For example, the LLaMA stands out among many
open-source implementations. Can the same transformer be used to process 2D
images? In this paper, we answer this question by unveiling a LLaMA-like vision
transformer in plain and pyramid forms, termed VisionLLaMA, which is tailored
for this purpose. VisionLLaMA is a unified and generic modelling framework for
solving most vision tasks. We extensively evaluate its effectiveness using
typical pre-training paradigms in a good portion of downstream tasks of image
perception and especially image generation. In many cases, VisionLLaMA have
exhibited substantial gains over the previous state-of-the-art vision
transformers. We believe that VisionLLaMA can serve as a strong new baseline
model for vision generation and understanding. Our code will be released at
https://github.com/Meituan-AutoML/VisionLLaMA.