ChatPaper.aiChatPaper

De schaalbaarheid van eenvoud: Empirische analyse van visueel-taalkundig leren met een enkele Transformer

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

April 14, 2025
Auteurs: Weixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang
cs.AI

Samenvatting

Dit artikel introduceert SAIL, een enkele transformer-gebaseerde unificatie van een multimodale grote taalmodellering (MLLM) die ruwe pixelcodering en taaldecodering integreert binnen een enkele architectuur. In tegenstelling tot bestaande modulaire MLLM's, die afhankelijk zijn van een vooraf getrainde vision transformer (ViT), elimineert SAIL de noodzaak van een aparte vision-encoder, wat resulteert in een minimalistischere architectuur. In plaats van nieuwe architectuurcomponenten te introduceren, past SAIL mix-attention-mechanismen en multimodale positionele coderingen aan om beter aan te sluiten bij de verschillende kenmerken van visuele en tekstuele modaliteiten. We vergelijken systematisch de eigenschappen van SAIL - waaronder schaalbaarheid, patronen van kruismodale informatieoverdracht en visuele representatiecapaciteiten - met die van modulaire MLLM's. Door zowel de trainingsdata als de modelgrootte te schalen, bereikt SAIL prestaties die vergelijkbaar zijn met modulaire MLLM's. Opmerkelijk is dat het verwijderen van vooraf getrainde ViT-componenten de schaalbaarheid van SAIL verbetert en resulteert in aanzienlijk verschillende patronen van kruismodale informatieoverdracht. Bovendien toont SAIL sterke visuele representatiecapaciteiten, met resultaten die vergelijkbaar zijn met ViT-22B in visuele taken zoals semantische segmentatie. Code en modellen zijn beschikbaar op https://github.com/bytedance/SAIL.
English
This paper introduces SAIL, a single transformer unified multimodal large language model (MLLM) that integrates raw pixel encoding and language decoding within a singular architecture. Unlike existing modular MLLMs, which rely on a pre-trained vision transformer (ViT), SAIL eliminates the need for a separate vision encoder, presenting a more minimalist architecture design. Instead of introducing novel architectural components, SAIL adapts mix-attention mechanisms and multimodal positional encodings to better align with the distinct characteristics of visual and textual modalities. We systematically compare SAIL's properties-including scalability, cross-modal information flow patterns, and visual representation capabilities-with those of modular MLLMs. By scaling both training data and model size, SAIL achieves performance comparable to modular MLLMs. Notably, the removal of pretrained ViT components enhances SAIL's scalability and results in significantly different cross-modal information flow patterns. Moreover, SAIL demonstrates strong visual representation capabilities, achieving results on par with ViT-22B in vision tasks such as semantic segmentation. Code and models are available at https://github.com/bytedance/SAIL.

Summary

AI-Generated Summary

PDF153April 16, 2025