La Escalabilidad de la Simplicidad: Análisis Empírico del Aprendizaje Visión-Lenguaje con un Único Transformer
The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer
April 14, 2025
Autores: Weixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang
cs.AI
Resumen
Este artículo presenta SAIL, un modelo de lenguaje multimodal grande (MLLM) unificado basado en un único transformador que integra la codificación de píxeles en bruto y la decodificación de lenguaje dentro de una arquitectura singular. A diferencia de los MLLM modulares existentes, que dependen de un transformador de visión preentrenado (ViT), SAIL elimina la necesidad de un codificador de visión separado, presentando un diseño arquitectónico más minimalista. En lugar de introducir componentes arquitectónicos novedosos, SAIL adapta mecanismos de atención mixta y codificaciones posicionales multimodales para alinearse mejor con las características distintivas de las modalidades visuales y textuales. Sistemáticamente comparamos las propiedades de SAIL, incluyendo escalabilidad, patrones de flujo de información multimodal y capacidades de representación visual, con las de los MLLM modulares. Al escalar tanto los datos de entrenamiento como el tamaño del modelo, SAIL logra un rendimiento comparable al de los MLLM modulares. Notablemente, la eliminación de los componentes preentrenados de ViT mejora la escalabilidad de SAIL y resulta en patrones de flujo de información multimodal significativamente diferentes. Además, SAIL demuestra fuertes capacidades de representación visual, alcanzando resultados comparables a ViT-22B en tareas de visión como la segmentación semántica. El código y los modelos están disponibles en https://github.com/bytedance/SAIL.
English
This paper introduces SAIL, a single transformer unified multimodal large
language model (MLLM) that integrates raw pixel encoding and language decoding
within a singular architecture. Unlike existing modular MLLMs, which rely on a
pre-trained vision transformer (ViT), SAIL eliminates the need for a separate
vision encoder, presenting a more minimalist architecture design. Instead of
introducing novel architectural components, SAIL adapts mix-attention
mechanisms and multimodal positional encodings to better align with the
distinct characteristics of visual and textual modalities. We systematically
compare SAIL's properties-including scalability, cross-modal information flow
patterns, and visual representation capabilities-with those of modular MLLMs.
By scaling both training data and model size, SAIL achieves performance
comparable to modular MLLMs. Notably, the removal of pretrained ViT components
enhances SAIL's scalability and results in significantly different cross-modal
information flow patterns. Moreover, SAIL demonstrates strong visual
representation capabilities, achieving results on par with ViT-22B in vision
tasks such as semantic segmentation. Code and models are available at
https://github.com/bytedance/SAIL.