VisionLLaMA: 비전 작업을 위한 통합 LLaMA 인터페이스
VisionLLaMA: A Unified LLaMA Interface for Vision Tasks
March 1, 2024
저자: Xiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen
cs.AI
초록
대형 언어 모델은 텍스트 입력을 처리하기 위해 트랜스포머 기반 아키텍처 위에 구축됩니다. 예를 들어, LLaMA는 많은 오픈소스 구현체 중에서도 두드러지는 성능을 보입니다. 동일한 트랜스포머를 2D 이미지 처리에 사용할 수 있을까요? 본 논문에서는 이러한 질문에 답하기 위해 LLaMA와 유사한 비전 트랜스포머를 일반형과 피라미드형으로 공개하며, 이를 VisionLLaMA라고 명명합니다. VisionLLaMA는 대부분의 비전 작업을 해결하기 위한 통합적이고 일반적인 모델링 프레임워크입니다. 우리는 이미지 인식, 특히 이미지 생성과 같은 다양한 하위 작업에서 전형적인 사전 학습 패러다임을 사용하여 그 효과를 광범위하게 평가했습니다. 많은 경우에서 VisionLLaMA는 이전의 최첨단 비전 트랜스포머 대비 상당한 성능 향상을 보여주었습니다. 우리는 VisionLLaMA가 비전 생성 및 이해를 위한 강력한 새로운 베이스라인 모델로 자리 잡을 수 있을 것이라 믿습니다. 우리의 코드는 https://github.com/Meituan-AutoML/VisionLLaMA에서 공개될 예정입니다.
English
Large language models are built on top of a transformer-based architecture to
process textual inputs. For example, the LLaMA stands out among many
open-source implementations. Can the same transformer be used to process 2D
images? In this paper, we answer this question by unveiling a LLaMA-like vision
transformer in plain and pyramid forms, termed VisionLLaMA, which is tailored
for this purpose. VisionLLaMA is a unified and generic modelling framework for
solving most vision tasks. We extensively evaluate its effectiveness using
typical pre-training paradigms in a good portion of downstream tasks of image
perception and especially image generation. In many cases, VisionLLaMA have
exhibited substantial gains over the previous state-of-the-art vision
transformers. We believe that VisionLLaMA can serve as a strong new baseline
model for vision generation and understanding. Our code will be released at
https://github.com/Meituan-AutoML/VisionLLaMA.