ChatPaper.aiChatPaper

Die Skalierbarkeit der Einfachheit: Empirische Analyse des Vision-Sprache-Lernens mit einem einzelnen Transformer

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

April 14, 2025
Autoren: Weixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang
cs.AI

Zusammenfassung

Dieses Papier stellt SAIL vor, ein einheitliches multimodales großes Sprachmodell (MLLM) auf Basis eines einzelnen Transformers, das die Rohpixelkodierung und Sprachdekodierung innerhalb einer einzigen Architektur integriert. Im Gegensatz zu bestehenden modularen MLLMs, die auf einen vortrainierten Vision Transformer (ViT) angewiesen sind, eliminiert SAIL die Notwendigkeit eines separaten Vision-Encoders und präsentiert damit ein minimalistisches Architekturdesign. Anstatt neue architektonische Komponenten einzuführen, passt SAIL Mix-Attention-Mechanismen und multimodale Positionskodierungen an, um besser mit den unterschiedlichen Eigenschaften der visuellen und textuellen Modalitäten in Einklang zu kommen. Wir vergleichen systematisch die Eigenschaften von SAIL – einschließlich Skalierbarkeit, Muster des cross-modalen Informationsflusses und visueller Repräsentationsfähigkeiten – mit denen modularer MLLMs. Durch die Skalierung sowohl der Trainingsdaten als auch der Modellgröße erreicht SAIL eine Leistung, die mit der modularer MLLMs vergleichbar ist. Insbesondere die Entfernung der vortrainierten ViT-Komponenten verbessert die Skalierbarkeit von SAIL und führt zu deutlich unterschiedlichen Mustern des cross-modalen Informationsflusses. Darüber hinaus zeigt SAIL starke visuelle Repräsentationsfähigkeiten und erzielt Ergebnisse, die mit ViT-22B in Vision-Aufgaben wie semantischer Segmentierung vergleichbar sind. Code und Modelle sind unter https://github.com/bytedance/SAIL verfügbar.
English
This paper introduces SAIL, a single transformer unified multimodal large language model (MLLM) that integrates raw pixel encoding and language decoding within a singular architecture. Unlike existing modular MLLMs, which rely on a pre-trained vision transformer (ViT), SAIL eliminates the need for a separate vision encoder, presenting a more minimalist architecture design. Instead of introducing novel architectural components, SAIL adapts mix-attention mechanisms and multimodal positional encodings to better align with the distinct characteristics of visual and textual modalities. We systematically compare SAIL's properties-including scalability, cross-modal information flow patterns, and visual representation capabilities-with those of modular MLLMs. By scaling both training data and model size, SAIL achieves performance comparable to modular MLLMs. Notably, the removal of pretrained ViT components enhances SAIL's scalability and results in significantly different cross-modal information flow patterns. Moreover, SAIL demonstrates strong visual representation capabilities, achieving results on par with ViT-22B in vision tasks such as semantic segmentation. Code and models are available at https://github.com/bytedance/SAIL.

Summary

AI-Generated Summary

PDF153April 16, 2025