A Escalabilidade da Simplicidade: Análise Empírica de Aprendizado Visão-Linguagem com um Único Transformer
The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer
April 14, 2025
Autores: Weixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang
cs.AI
Resumo
Este artigo apresenta o SAIL, um modelo de linguagem multimodal unificado baseado em um único transformador (MLLM) que integra a codificação de pixels brutos e a decodificação de linguagem em uma única arquitetura. Diferente dos MLLMs modulares existentes, que dependem de um transformador de visão pré-treinado (ViT), o SAIL elimina a necessidade de um codificador de visão separado, apresentando um design arquitetônico mais minimalista. Em vez de introduzir novos componentes arquitetônicos, o SAIL adapta mecanismos de atenção mista e codificações posicionais multimodais para melhor alinhar-se às características distintas das modalidades visual e textual. Comparamos sistematicamente as propriedades do SAIL — incluindo escalabilidade, padrões de fluxo de informação entre modalidades e capacidades de representação visual — com as dos MLLMs modulares. Ao escalar tanto os dados de treinamento quanto o tamanho do modelo, o SAIL alcança desempenho comparável aos MLLMs modulares. Notavelmente, a remoção dos componentes pré-treinados do ViT melhora a escalabilidade do SAIL e resulta em padrões de fluxo de informação entre modalidades significativamente diferentes. Além disso, o SAIL demonstra fortes capacidades de representação visual, alcançando resultados equivalentes ao ViT-22B em tarefas de visão, como segmentação semântica. Códigos e modelos estão disponíveis em https://github.com/bytedance/SAIL.
English
This paper introduces SAIL, a single transformer unified multimodal large
language model (MLLM) that integrates raw pixel encoding and language decoding
within a singular architecture. Unlike existing modular MLLMs, which rely on a
pre-trained vision transformer (ViT), SAIL eliminates the need for a separate
vision encoder, presenting a more minimalist architecture design. Instead of
introducing novel architectural components, SAIL adapts mix-attention
mechanisms and multimodal positional encodings to better align with the
distinct characteristics of visual and textual modalities. We systematically
compare SAIL's properties-including scalability, cross-modal information flow
patterns, and visual representation capabilities-with those of modular MLLMs.
By scaling both training data and model size, SAIL achieves performance
comparable to modular MLLMs. Notably, the removal of pretrained ViT components
enhances SAIL's scalability and results in significantly different cross-modal
information flow patterns. Moreover, SAIL demonstrates strong visual
representation capabilities, achieving results on par with ViT-22B in vision
tasks such as semantic segmentation. Code and models are available at
https://github.com/bytedance/SAIL.