ChatPaper.aiChatPaper

La Scalabilità della Semplicità: Analisi Empirica dell'Apprendimento Visione-Linguaggio con un Singolo Trasformatore

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

April 14, 2025
Autori: Weixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang
cs.AI

Abstract

Questo articolo introduce SAIL, un modello linguistico multimodale unificato (MLLM) basato su un singolo trasformatore che integra la codifica dei pixel grezzi e la decodifica del linguaggio all'interno di un'unica architettura. A differenza degli MLLM modulari esistenti, che si basano su un trasformatore visivo (ViT) pre-addestrato, SAIL elimina la necessità di un encoder visivo separato, presentando un design architetturale più minimalista. Invece di introdurre nuovi componenti architetturali, SAIL adatta meccanismi di mix-attention e codifiche posizionali multimodali per allinearsi meglio alle caratteristiche distintive delle modalità visive e testuali. Confrontiamo sistematicamente le proprietà di SAIL, tra cui scalabilità, modelli di flusso di informazioni cross-modali e capacità di rappresentazione visiva, con quelle degli MLLM modulari. Scalando sia i dati di addestramento che le dimensioni del modello, SAIL raggiunge prestazioni comparabili a quelle degli MLLM modulari. In particolare, la rimozione dei componenti ViT pre-addestrati migliora la scalabilità di SAIL e determina modelli di flusso di informazioni cross-modali significativamente diversi. Inoltre, SAIL dimostra forti capacità di rappresentazione visiva, ottenendo risultati paragonabili a ViT-22B in compiti visivi come la segmentazione semantica. Codice e modelli sono disponibili all'indirizzo https://github.com/bytedance/SAIL.
English
This paper introduces SAIL, a single transformer unified multimodal large language model (MLLM) that integrates raw pixel encoding and language decoding within a singular architecture. Unlike existing modular MLLMs, which rely on a pre-trained vision transformer (ViT), SAIL eliminates the need for a separate vision encoder, presenting a more minimalist architecture design. Instead of introducing novel architectural components, SAIL adapts mix-attention mechanisms and multimodal positional encodings to better align with the distinct characteristics of visual and textual modalities. We systematically compare SAIL's properties-including scalability, cross-modal information flow patterns, and visual representation capabilities-with those of modular MLLMs. By scaling both training data and model size, SAIL achieves performance comparable to modular MLLMs. Notably, the removal of pretrained ViT components enhances SAIL's scalability and results in significantly different cross-modal information flow patterns. Moreover, SAIL demonstrates strong visual representation capabilities, achieving results on par with ViT-22B in vision tasks such as semantic segmentation. Code and models are available at https://github.com/bytedance/SAIL.

Summary

AI-Generated Summary

PDF153April 16, 2025