ChatPaper.aiChatPaper

VisionLLaMA: Единый интерфейс LLaMA для задач зрения

VisionLLaMA: A Unified LLaMA Interface for Vision Tasks

March 1, 2024
Авторы: Xiangxiang Chu, Jianlin Su, Bo Zhang, Chunhua Shen
cs.AI

Аннотация

Большие языковые модели созданы на основе архитектуры на основе трансформера для обработки текстовых входов. Например, LLaMA выделяется среди многих реализаций с открытым исходным кодом. Можно ли использовать тот же трансформер для обработки двумерных изображений? В этой статье мы отвечаем на этот вопрос, раскрывая визионный трансформер в стиле LLaMA в простой и пирамидальной формах, названный VisionLLaMA, который разработан специально для этой цели. VisionLLaMA - это унифицированная и общая модельная платформа для решения большинства задач в области зрения. Мы подробно оцениваем ее эффективность, используя типичные парадигмы предварительного обучения на значительной части последующих задач восприятия изображений, особенно генерации изображений. Во многих случаях VisionLLaMA продемонстрировал значительные улучшения по сравнению с предыдущими передовыми визионными трансформерами. Мы считаем, что VisionLLaMA может служить сильной новой базовой моделью для генерации и понимания изображений. Наш код будет опубликован на https://github.com/Meituan-AutoML/VisionLLaMA.
English
Large language models are built on top of a transformer-based architecture to process textual inputs. For example, the LLaMA stands out among many open-source implementations. Can the same transformer be used to process 2D images? In this paper, we answer this question by unveiling a LLaMA-like vision transformer in plain and pyramid forms, termed VisionLLaMA, which is tailored for this purpose. VisionLLaMA is a unified and generic modelling framework for solving most vision tasks. We extensively evaluate its effectiveness using typical pre-training paradigms in a good portion of downstream tasks of image perception and especially image generation. In many cases, VisionLLaMA have exhibited substantial gains over the previous state-of-the-art vision transformers. We believe that VisionLLaMA can serve as a strong new baseline model for vision generation and understanding. Our code will be released at https://github.com/Meituan-AutoML/VisionLLaMA.
PDF474December 15, 2024