ChatPaper.aiChatPaper

L'évolutivité de la simplicité : Analyse empirique de l'apprentissage vision-langage avec un seul transformateur

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

April 14, 2025
Auteurs: Weixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang
cs.AI

Résumé

Cet article présente SAIL, un modèle de langage multimodal unifié (MLLM) basé sur un unique transformateur, qui intègre l'encodage de pixels bruts et le décodage de langage au sein d'une architecture singulière. Contrairement aux MLLM modulaires existants, qui s'appuient sur un transformateur de vision pré-entraîné (ViT), SAIL élimine le besoin d'un encodeur visuel séparé, offrant ainsi une conception architecturale plus minimaliste. Plutôt que d'introduire de nouveaux composants architecturaux, SAIL adapte des mécanismes d'attention mixte et des encodages positionnels multimodaux pour mieux s'aligner avec les caractéristiques distinctes des modalités visuelles et textuelles. Nous comparons systématiquement les propriétés de SAIL — incluant l'évolutivité, les schémas de flux d'information intermodaux et les capacités de représentation visuelle — avec celles des MLLM modulaires. En augmentant à la fois les données d'entraînement et la taille du modèle, SAIL atteint des performances comparables à celles des MLLM modulaires. Notamment, la suppression des composants ViT pré-entraînés améliore l'évolutivité de SAIL et entraîne des schémas de flux d'information intermodaux significativement différents. De plus, SAIL démontre de solides capacités de représentation visuelle, obtenant des résultats comparables à ceux de ViT-22B dans des tâches de vision telles que la segmentation sémantique. Le code et les modèles sont disponibles à l'adresse https://github.com/bytedance/SAIL.
English
This paper introduces SAIL, a single transformer unified multimodal large language model (MLLM) that integrates raw pixel encoding and language decoding within a singular architecture. Unlike existing modular MLLMs, which rely on a pre-trained vision transformer (ViT), SAIL eliminates the need for a separate vision encoder, presenting a more minimalist architecture design. Instead of introducing novel architectural components, SAIL adapts mix-attention mechanisms and multimodal positional encodings to better align with the distinct characteristics of visual and textual modalities. We systematically compare SAIL's properties-including scalability, cross-modal information flow patterns, and visual representation capabilities-with those of modular MLLMs. By scaling both training data and model size, SAIL achieves performance comparable to modular MLLMs. Notably, the removal of pretrained ViT components enhances SAIL's scalability and results in significantly different cross-modal information flow patterns. Moreover, SAIL demonstrates strong visual representation capabilities, achieving results on par with ViT-22B in vision tasks such as semantic segmentation. Code and models are available at https://github.com/bytedance/SAIL.

Summary

AI-Generated Summary

PDF153April 16, 2025