ChatPaper.aiChatPaper

네이티브 멀티모달 모델을 위한 스케일링 법칙 네이티브 멀티모달 모델을 위한 스케일링 법칙

Scaling Laws for Native Multimodal Models Scaling Laws for Native Multimodal Models

April 10, 2025
저자: Mustafa Shukor, Enrico Fini, Victor Guilherme Turrisi da Costa, Matthieu Cord, Joshua Susskind, Alaaeldin El-Nouby
cs.AI

초록

다양한 모달리티 신호를 통해 세계를 효과적으로 인지할 수 있는 범용 모델을 구축하는 것은 오랜 기간 동안 추구되어 온 목표입니다. 현재의 접근 방식은 시각 인코더를 대형 언어 모델(LLM)에 연결하고 다중 모달리티 학습을 계속하는 등 별도로 사전 학습된 구성 요소를 통합하는 것을 포함합니다. 이러한 접근 방식은 놀라운 샘플 효율성을 보여주지만, 이러한 후기 융합(late-fusion) 아키텍처가 본질적으로 우월한지 여부는 여전히 열린 질문으로 남아 있습니다. 본 연구에서는 모든 모달리티를 처음부터 학습하는 네이티브 다중 모달리티 모델(NMM)의 아키텍처 설계를 재검토하고, 다양한 아키텍처와 학습 혼합을 가진 457개의 학습된 모델을 대상으로 광범위한 스케일링 법칙 연구를 수행했습니다. 우리의 연구 결과, 후기 융합 아키텍처가 이미지 인코더에 의존하지 않는 조기 융합(early-fusion) 아키텍처에 비해 본질적인 우위를 가지지 않음을 밝혔습니다. 오히려, 조기 융합은 더 적은 매개변수 수에서 더 강력한 성능을 보이며, 학습 효율성이 높고 배포가 더 쉽습니다. 조기 융합 아키텍처의 강력한 성능에 고무되어, 우리는 전문가 혼합(Mixture of Experts, MoE)을 도입하여 모달리티별 가중치를 학습하는 모델이 성능을 크게 향상시킬 수 있음을 보여줍니다.
English
Building general-purpose models that can effectively perceive the world through multimodal signals has been a long-standing goal. Current approaches involve integrating separately pre-trained components, such as connecting vision encoders to LLMs and continuing multimodal training. While such approaches exhibit remarkable sample efficiency, it remains an open question whether such late-fusion architectures are inherently superior. In this work, we revisit the architectural design of native multimodal models (NMMs)--those trained from the ground up on all modalities--and conduct an extensive scaling laws study, spanning 457 trained models with different architectures and training mixtures. Our investigation reveals no inherent advantage to late-fusion architectures over early-fusion ones, which do not rely on image encoders. On the contrary, early-fusion exhibits stronger performance at lower parameter counts, is more efficient to train, and is easier to deploy. Motivated by the strong performance of the early-fusion architectures, we show that incorporating Mixture of Experts (MoEs) allows for models that learn modality-specific weights, significantly enhancing performance.

Summary

AI-Generated Summary

PDF272April 11, 2025