ChatPaper.aiChatPaper

VisionLLaMA: Eine einheitliche LLaMA-Schnittstelle für Vision-Aufgaben

VisionLLaMA: A Unified LLaMA Interface for Vision Tasks

March 1, 2024
Autoren: Xiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen
cs.AI

Zusammenfassung

Große Sprachmodelle basieren auf einer Transformer-basierten Architektur, um textuelle Eingaben zu verarbeiten. Beispielsweise sticht LLaMA unter vielen Open-Source-Implementierungen hervor. Kann derselbe Transformer auch zur Verarbeitung von 2D-Bildern verwendet werden? In diesem Papier beantworten wir diese Frage, indem wir einen LLaMA-ähnlichen Vision-Transformer in einfacher und pyramidaler Form vorstellen, der als VisionLLaMA bezeichnet wird und speziell für diesen Zweck entwickelt wurde. VisionLLaMA ist ein einheitliches und generisches Modellierungsframework zur Lösung der meisten Vision-Aufgaben. Wir evaluieren seine Wirksamkeit umfassend anhand typischer Pre-Training-Paradigmen in einer Vielzahl von Downstream-Aufgaben der Bildwahrnehmung und insbesondere der Bildgenerierung. In vielen Fällen hat VisionLLaMA erhebliche Verbesserungen gegenüber den bisherigen State-of-the-Art Vision-Transformern gezeigt. Wir glauben, dass VisionLLaMA als ein starkes neues Basismodell für die Bildgenerierung und -verarbeitung dienen kann. Unser Code wird unter https://github.com/Meituan-AutoML/VisionLLaMA veröffentlicht.
English
Large language models are built on top of a transformer-based architecture to process textual inputs. For example, the LLaMA stands out among many open-source implementations. Can the same transformer be used to process 2D images? In this paper, we answer this question by unveiling a LLaMA-like vision transformer in plain and pyramid forms, termed VisionLLaMA, which is tailored for this purpose. VisionLLaMA is a unified and generic modelling framework for solving most vision tasks. We extensively evaluate its effectiveness using typical pre-training paradigms in a good portion of downstream tasks of image perception and especially image generation. In many cases, VisionLLaMA have exhibited substantial gains over the previous state-of-the-art vision transformers. We believe that VisionLLaMA can serve as a strong new baseline model for vision generation and understanding. Our code will be released at https://github.com/Meituan-AutoML/VisionLLaMA.
PDF474December 15, 2024