ChatPaper.aiChatPaper

단순성의 확장성: 단일 트랜스포머를 활용한 비전-언어 학습의 실증적 분석

The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer

April 14, 2025
저자: Weixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang
cs.AI

초록

본 논문은 단일 트랜스포머 아키텍처 내에서 원시 픽셀 인코딩과 언어 디코딩을 통합한 통합 멀티모달 대형 언어 모델(MLLM)인 SAIL을 소개합니다. 기존의 모듈식 MLLM들이 사전 학습된 비전 트랜스포머(ViT)에 의존하는 것과 달리, SAIL은 별도의 비전 인코더가 필요 없이 더욱 미니멀한 아키텍처 설계를 제시합니다. SAIL은 새로운 아키텍처 구성 요소를 도입하기보다는, 혼합 어텐션 메커니즘과 멀티모달 위치 인코딩을 적응시켜 시각 및 텍스트 양상의 독특한 특성에 더 잘 부합하도록 합니다. 우리는 SAIL의 확장성, 크로스모달 정보 흐름 패턴, 시각적 표현 능력 등의 특성을 모듈식 MLLM들과 체계적으로 비교합니다. 학습 데이터와 모델 크기를 동시에 확장함으로써, SAIL은 모듈식 MLLM과 비슷한 성능을 달성합니다. 특히, 사전 학습된 ViT 구성 요소를 제거함으로써 SAIL의 확장성이 향상되고 크로스모달 정보 흐름 패턴이 크게 달라집니다. 또한, SAIL은 시맨틱 세그멘테이션과 같은 비전 작업에서 ViT-22B와 동등한 결과를 보이며 강력한 시각적 표현 능력을 입증합니다. 코드와 모델은 https://github.com/bytedance/SAIL에서 확인할 수 있습니다.
English
This paper introduces SAIL, a single transformer unified multimodal large language model (MLLM) that integrates raw pixel encoding and language decoding within a singular architecture. Unlike existing modular MLLMs, which rely on a pre-trained vision transformer (ViT), SAIL eliminates the need for a separate vision encoder, presenting a more minimalist architecture design. Instead of introducing novel architectural components, SAIL adapts mix-attention mechanisms and multimodal positional encodings to better align with the distinct characteristics of visual and textual modalities. We systematically compare SAIL's properties-including scalability, cross-modal information flow patterns, and visual representation capabilities-with those of modular MLLMs. By scaling both training data and model size, SAIL achieves performance comparable to modular MLLMs. Notably, the removal of pretrained ViT components enhances SAIL's scalability and results in significantly different cross-modal information flow patterns. Moreover, SAIL demonstrates strong visual representation capabilities, achieving results on par with ViT-22B in vision tasks such as semantic segmentation. Code and models are available at https://github.com/bytedance/SAIL.

Summary

AI-Generated Summary

PDF153April 16, 2025