Масштабируемость простоты: эмпирический анализ обучения моделей "визуальный язык" с использованием одного трансформатора
The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer
April 14, 2025
Авторы: Weixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang
cs.AI
Аннотация
В данной статье представлена модель SAIL — единая мультимодальная языковая модель (MLLM) на основе одного трансформера, которая интегрирует кодирование сырых пикселей и декодирование языка в рамках единой архитектуры. В отличие от существующих модульных MLLM, которые полагаются на предобученный визуальный трансформер (ViT), SAIL устраняет необходимость в отдельном визуальном энкодере, предлагая более минималистичный дизайн архитектуры. Вместо введения новых архитектурных компонентов SAIL адаптирует механизмы смешанного внимания и мультимодальные позиционные кодировки для лучшего согласования с особенностями визуальных и текстовых модальностей. Мы систематически сравниваем свойства SAIL, включая масштабируемость, паттерны кросс-модального потока информации и способности к визуальному представлению, с характеристиками модульных MLLM. Масштабируя как объем обучающих данных, так и размер модели, SAIL достигает производительности, сопоставимой с модульными MLLM. Примечательно, что удаление предобученных компонентов ViT повышает масштабируемость SAIL и приводит к существенно иным паттернам кросс-модального потока информации. Более того, SAIL демонстрирует мощные способности к визуальному представлению, достигая результатов, сравнимых с ViT-22B, в задачах компьютерного зрения, таких как семантическая сегментация. Код и модели доступны по адресу https://github.com/bytedance/SAIL.
English
This paper introduces SAIL, a single transformer unified multimodal large
language model (MLLM) that integrates raw pixel encoding and language decoding
within a singular architecture. Unlike existing modular MLLMs, which rely on a
pre-trained vision transformer (ViT), SAIL eliminates the need for a separate
vision encoder, presenting a more minimalist architecture design. Instead of
introducing novel architectural components, SAIL adapts mix-attention
mechanisms and multimodal positional encodings to better align with the
distinct characteristics of visual and textual modalities. We systematically
compare SAIL's properties-including scalability, cross-modal information flow
patterns, and visual representation capabilities-with those of modular MLLMs.
By scaling both training data and model size, SAIL achieves performance
comparable to modular MLLMs. Notably, the removal of pretrained ViT components
enhances SAIL's scalability and results in significantly different cross-modal
information flow patterns. Moreover, SAIL demonstrates strong visual
representation capabilities, achieving results on par with ViT-22B in vision
tasks such as semantic segmentation. Code and models are available at
https://github.com/bytedance/SAIL.Summary
AI-Generated Summary