VisionLLaMA: Единый интерфейс LLaMA для задач зренияVisionLLaMA: A Unified LLaMA Interface for Vision Tasks
Большие языковые модели созданы на основе архитектуры на основе трансформера для обработки текстовых входов. Например, LLaMA выделяется среди многих реализаций с открытым исходным кодом. Можно ли использовать тот же трансформер для обработки двумерных изображений? В этой статье мы отвечаем на этот вопрос, раскрывая визионный трансформер в стиле LLaMA в простой и пирамидальной формах, названный VisionLLaMA, который разработан специально для этой цели. VisionLLaMA - это унифицированная и общая модельная платформа для решения большинства задач в области зрения. Мы подробно оцениваем ее эффективность, используя типичные парадигмы предварительного обучения на значительной части последующих задач восприятия изображений, особенно генерации изображений. Во многих случаях VisionLLaMA продемонстрировал значительные улучшения по сравнению с предыдущими передовыми визионными трансформерами. Мы считаем, что VisionLLaMA может служить сильной новой базовой моделью для генерации и понимания изображений. Наш код будет опубликован на https://github.com/Meituan-AutoML/VisionLLaMA.