FlexOlmo: 유연한 데이터 활용을 위한 오픈 언어 모델
FlexOlmo: Open Language Models for Flexible Data Use
July 9, 2025
저자: Weijia Shi, Akshita Bhagia, Kevin Farhat, Niklas Muennighoff, Pete Walsh, Jacob Morrison, Dustin Schwenk, Shayne Longpre, Jake Poznanski, Allyson Ettinger, Daogao Liu, Margaret Li, Dirk Groeneveld, Mike Lewis, Wen-tau Yih, Luca Soldaini, Kyle Lo, Noah A. Smith, Luke Zettlemoyer, Pang Wei Koh, Hannaneh Hajishirzi, Ali Farhadi, Sewon Min
cs.AI
초록
우리는 FlexOlmo라는 새로운 클래스의 언어 모델(LM)을 소개한다. 이 모델은 (1) 데이터 공유 없이 분산 학습을 지원하며, 서로 다른 모델 파라미터들이 독립적으로 폐쇄된 데이터셋에서 학습되고, (2) 데이터 유연성 추론을 지원하여, 이러한 파라미터들과 관련 데이터를 추가 학습 없이도 유연하게 모델 추론에 포함하거나 제외할 수 있다. FlexOlmo는 혼합 전문가(MoE) 아키텍처를 채택하며, 각 전문가는 폐쇄된 데이터셋에서 독립적으로 학습된 후 새로운 도메인 기반 라우팅을 통해 통합된다. FlexOlmo는 FlexMix라는 우리가 구축한 코퍼스에서 학습되며, 이 코퍼스는 공개적으로 이용 가능한 데이터셋과 7개의 도메인 특화 데이터셋으로 구성되어 폐쇄된 데이터셋의 현실적 근사치를 나타낸다. 우리는 최대 370억 개의 파라미터(활성 파라미터 200억 개)를 가진 모델을 31개의 다양한 다운스트림 작업에서 평가한다. 공개 데이터에서 학습된 일반 전문가가 다른 데이터 소유자의 독립적으로 학습된 전문가들과 효과적으로 결합될 수 있음을 보여주며, 이는 평균 41%의 상대적 성능 향상을 이끌어내면서도 사용자가 데이터 라이선스 또는 허가 요구사항에 따라 특정 데이터를 선택적으로 제외할 수 있도록 한다. 또한 우리의 접근 방식은 기존 모델 병합 방법을 평균 10.1% 앞서며, 동일한 학습 FLOPs를 사용하여 데이터 제한 없이 학습된 표준 MoE를 능가한다. 전반적으로, 이 연구는 민감하거나 보호된 데이터를 다루는 규제 산업의 데이터 소유자와 연구자들을 위한 솔루션을 제시한다. FlexOlmo는 폐쇄된 데이터로부터 이점을 얻으면서도 데이터 소유자의 선호를 존중하며, 데이터를 로컬에 유지하고 추론 중 데이터 접근에 대한 세밀한 제어를 지원한다.
English
We introduce FlexOlmo, a new class of language models (LMs) that supports (1)
distributed training without data sharing, where different model parameters are
independently trained on closed datasets, and (2) data-flexible inference,
where these parameters along with their associated data can be flexibly
included or excluded from model inferences with no further training. FlexOlmo
employs a mixture-of-experts (MoE) architecture where each expert is trained
independently on closed datasets and later integrated through a new
domain-informed routing without any joint training. FlexOlmo is trained on
FlexMix, a corpus we curate comprising publicly available datasets alongside
seven domain-specific sets, representing realistic approximations of closed
sets. We evaluate models with up to 37 billion parameters (20 billion active)
on 31 diverse downstream tasks. We show that a general expert trained on public
data can be effectively combined with independently trained experts from other
data owners, leading to an average 41% relative improvement while allowing
users to opt out of certain data based on data licensing or permission
requirements. Our approach also outperforms prior model merging methods by
10.1% on average and surpasses the standard MoE trained without data
restrictions using the same training FLOPs. Altogether, this research presents
a solution for both data owners and researchers in regulated industries with
sensitive or protected data. FlexOlmo enables benefiting from closed data while
respecting data owners' preferences by keeping their data local and supporting
fine-grained control of data access during inference.