Посадка "СЕМЕНИ" зрения в крупные языковые модели
Planting a SEED of Vision in Large Language Model
July 16, 2023
Авторы: Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang, Ying Shan
cs.AI
Аннотация
Мы представляем SEED — детализированный токенизатор изображений, который наделяет крупные языковые модели (LLM) способностью одновременно ВИДЕТЬ и РИСОВАТЬ. Исследования в области токенизаторов изображений ранее достигли тупика, поскольку подходы, использующие квантованные визуальные токены, потеряли популярность из-за неудовлетворительной производительности и сходимости в задачах мультимодального понимания (в сравнении с BLIP-2 и др.) или генерации (в сравнении с Stable Diffusion и др.). Несмотря на ограничения, мы уверены в естественной способности этого подхода объединять визуальные и текстовые представления, что облегчает масштабируемое мультимодальное обучение с использованием оригинальной архитектуры LLM. В данном исследовании мы выделяем два ключевых принципа для архитектуры и обучения SEED, которые эффективно упрощают последующее согласование с LLM. (1) Токены изображений должны быть независимы от 2D физических позиций патчей и вместо этого создаваться с одномерной причинной зависимостью, демонстрируя внутреннюю взаимосвязь, которая соответствует механизму авторегрессивного предсказания слева направо в LLM. (2) Токены изображений должны захватывать высокоуровневую семантику, согласованную со степенью семантической абстракции слов, и оптимизироваться как для различимости, так и для реконструкции на этапе обучения токенизатора. В результате стандартная LLM способна выполнять как генерацию текста из изображений, так и генерацию изображений из текста, интегрируя наш SEED через эффективную настройку LoRA. Полноценное мультимодальное предобучение и тонкая настройка инструкций, которые могут привести к улучшенным результатам, оставлены для будущих исследований. Эта версия SEED была обучена за 5,7 дней с использованием всего 64 GPU V100 и 5 миллионов общедоступных пар изображение-текст. Наше предварительное исследование подчеркивает огромный потенциал дискретных визуальных токенов в универсальных мультимодальных LLM и важность правильных токенизаторов изображений для более широких исследований.
English
We present SEED, an elaborate image tokenizer that empowers Large Language
Models (LLMs) with the emergent ability to SEE and Draw at the same time.
Research on image tokenizers has previously reached an impasse, as frameworks
employing quantized visual tokens have lost prominence due to subpar
performance and convergence in multimodal comprehension (compared to BLIP-2,
etc.) or generation (compared to Stable Diffusion, etc.). Despite the
limitations, we remain confident in its natural capacity to unify visual and
textual representations, facilitating scalable multimodal training with LLM's
original recipe. In this study, we identify two crucial principles for the
architecture and training of SEED that effectively ease subsequent alignment
with LLMs. (1) Image tokens should be independent of 2D physical patch
positions and instead be produced with a 1D causal dependency, exhibiting
intrinsic interdependence that aligns with the left-to-right autoregressive
prediction mechanism in LLMs. (2) Image tokens should capture high-level
semantics consistent with the degree of semantic abstraction in words, and be
optimized for both discriminativeness and reconstruction during the tokenizer
training phase. As a result, the off-the-shelf LLM is able to perform both
image-to-text and text-to-image generation by incorporating our SEED through
efficient LoRA tuning. Comprehensive multimodal pretraining and instruction
tuning, which may yield improved results, are reserved for future
investigation. This version of SEED was trained in 5.7 days using only 64 V100
GPUs and 5M publicly available image-text pairs. Our preliminary study
emphasizes the great potential of discrete visual tokens in versatile
multimodal LLMs and the importance of proper image tokenizers in broader
research.