A Escalabilidade da Simplicidade: Análise Empírica de Aprendizado Visão-Linguagem com um Único Transformer

Resumo

Este artigo apresenta o SAIL, um modelo de linguagem multimodal unificado baseado em um único transformador (MLLM) que integra a codificação de pixels brutos e a decodificação de linguagem em uma única arquitetura. Diferente dos MLLMs modulares existentes, que dependem de um transformador de visão pré-treinado (ViT), o SAIL elimina a necessidade de um codificador de visão separado, apresentando um design arquitetônico mais minimalista. Em vez de introduzir novos componentes arquitetônicos, o SAIL adapta mecanismos de atenção mista e codificações posicionais multimodais para melhor alinhar-se às características distintas das modalidades visual e textual. Comparamos sistematicamente as propriedades do SAIL — incluindo escalabilidade, padrões de fluxo de informação entre modalidades e capacidades de representação visual — com as dos MLLMs modulares. Ao escalar tanto os dados de treinamento quanto o tamanho do modelo, o SAIL alcança desempenho comparável aos MLLMs modulares. Notavelmente, a remoção dos componentes pré-treinados do ViT melhora a escalabilidade do SAIL e resulta em padrões de fluxo de informação entre modalidades significativamente diferentes. Além disso, o SAIL demonstra fortes capacidades de representação visual, alcançando resultados equivalentes ao ViT-22B em tarefas de visão, como segmentação semântica. Códigos e modelos estão disponíveis em https://github.com/bytedance/SAIL.

English

This paper introduces SAIL, a single transformer unified multimodal large language model (MLLM) that integrates raw pixel encoding and language decoding within a singular architecture. Unlike existing modular MLLMs, which rely on a pre-trained vision transformer (ViT), SAIL eliminates the need for a separate vision encoder, presenting a more minimalist architecture design. Instead of introducing novel architectural components, SAIL adapts mix-attention mechanisms and multimodal positional encodings to better align with the distinct characteristics of visual and textual modalities. We systematically compare SAIL's properties-including scalability, cross-modal information flow patterns, and visual representation capabilities-with those of modular MLLMs. By scaling both training data and model size, SAIL achieves performance comparable to modular MLLMs. Notably, the removal of pretrained ViT components enhances SAIL's scalability and results in significantly different cross-modal information flow patterns. Moreover, SAIL demonstrates strong visual representation capabilities, achieving results on par with ViT-22B in vision tasks such as semantic segmentation. Code and models are available at https://github.com/bytedance/SAIL.

A Escalabilidade da Simplicidade: Análise Empírica de Aprendizado Visão-Linguagem com um Único Transformer

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

Resumo

Support