VisionLLaMA: Een Uniform LLaMA-Interface voor Visuele Taken
VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
March 1, 2024
Auteurs: Xiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen
cs.AI
Samenvatting
Grote taalmodelen zijn gebouwd op een transformer-gebaseerde architectuur om tekstuele invoer te verwerken. Zo springt LLaMA eruit onder de vele open-source implementaties. Kan dezelfde transformer worden gebruikt om 2D-afbeeldingen te verwerken? In dit artikel beantwoorden we deze vraag door een LLaMA-achtige vision transformer in zowel eenvoudige als piramidevorm te onthullen, genaamd VisionLLaMA, die speciaal hiervoor is ontworpen. VisionLLaMA is een uniform en generiek modelleerkader voor het oplossen van de meeste visuele taken. We evalueren uitgebreid de effectiviteit ervan met behulp van typische voorafgaande trainingsparadigma's in een groot deel van de downstream taken van beeldwaarneming en vooral beeldgeneratie. In veel gevallen heeft VisionLLaMA aanzienlijke verbeteringen laten zien ten opzichte van de vorige state-of-the-art vision transformers. Wij geloven dat VisionLLaMA kan dienen als een sterk nieuw basismodel voor visuele generatie en begrip. Onze code zal worden vrijgegeven op https://github.com/Meituan-AutoML/VisionLLaMA.
English
Large language models are built on top of a transformer-based architecture to
process textual inputs. For example, the LLaMA stands out among many
open-source implementations. Can the same transformer be used to process 2D
images? In this paper, we answer this question by unveiling a LLaMA-like vision
transformer in plain and pyramid forms, termed VisionLLaMA, which is tailored
for this purpose. VisionLLaMA is a unified and generic modelling framework for
solving most vision tasks. We extensively evaluate its effectiveness using
typical pre-training paradigms in a good portion of downstream tasks of image
perception and especially image generation. In many cases, VisionLLaMA have
exhibited substantial gains over the previous state-of-the-art vision
transformers. We believe that VisionLLaMA can serve as a strong new baseline
model for vision generation and understanding. Our code will be released at
https://github.com/Meituan-AutoML/VisionLLaMA.