VisionLLaMA: Eine einheitliche LLaMA-Schnittstelle für Vision-AufgabenVisionLLaMA: A Unified LLaMA Interface for Vision Tasks
Große Sprachmodelle basieren auf einer Transformer-basierten Architektur, um textuelle Eingaben zu verarbeiten. Beispielsweise sticht LLaMA unter vielen Open-Source-Implementierungen hervor. Kann derselbe Transformer auch zur Verarbeitung von 2D-Bildern verwendet werden? In diesem Papier beantworten wir diese Frage, indem wir einen LLaMA-ähnlichen Vision-Transformer in einfacher und pyramidaler Form vorstellen, der als VisionLLaMA bezeichnet wird und speziell für diesen Zweck entwickelt wurde. VisionLLaMA ist ein einheitliches und generisches Modellierungsframework zur Lösung der meisten Vision-Aufgaben. Wir evaluieren seine Wirksamkeit umfassend anhand typischer Pre-Training-Paradigmen in einer Vielzahl von Downstream-Aufgaben der Bildwahrnehmung und insbesondere der Bildgenerierung. In vielen Fällen hat VisionLLaMA erhebliche Verbesserungen gegenüber den bisherigen State-of-the-Art Vision-Transformern gezeigt. Wir glauben, dass VisionLLaMA als ein starkes neues Basismodell für die Bildgenerierung und -verarbeitung dienen kann. Unser Code wird unter https://github.com/Meituan-AutoML/VisionLLaMA veröffentlicht.