FlexOlmo:柔軟なデータ利用のためのオープン言語モデル
FlexOlmo: Open Language Models for Flexible Data Use
July 9, 2025
著者: Weijia Shi, Akshita Bhagia, Kevin Farhat, Niklas Muennighoff, Pete Walsh, Jacob Morrison, Dustin Schwenk, Shayne Longpre, Jake Poznanski, Allyson Ettinger, Daogao Liu, Margaret Li, Dirk Groeneveld, Mike Lewis, Wen-tau Yih, Luca Soldaini, Kyle Lo, Noah A. Smith, Luke Zettlemoyer, Pang Wei Koh, Hannaneh Hajishirzi, Ali Farhadi, Sewon Min
cs.AI
要旨
FlexOlmoを紹介します。これは新しいクラスの言語モデル(LM)で、(1)データ共有なしでの分散学習をサポートし、異なるモデルパラメータがクローズドデータセット上で独立して学習されます。また、(2)データ柔軟型推論を可能にし、これらのパラメータと関連データを追加の学習なしに柔軟に推論に含めたり除外したりできます。FlexOlmoは、Mixture-of-Experts(MoE)アーキテクチャを採用しており、各エキスパートはクローズドデータセット上で独立して学習され、その後、新しいドメイン情報を活用したルーティングを通じて統合されますが、共同学習は一切行われません。FlexOlmoは、FlexMixというコーパスで学習されます。これは、公開されているデータセットと7つのドメイン固有のデータセットから構成され、クローズドセットの現実的な近似を表しています。最大370億パラメータ(うち200億がアクティブ)のモデルを31の多様な下流タスクで評価しました。公開データで学習された汎用エキスパートを、他のデータ所有者から独立して学習されたエキスパートと効果的に組み合わせることができ、平均41%の相対的改善をもたらしつつ、ユーザーがデータライセンスや許可要件に基づいて特定のデータをオプトアウトできることを示しました。また、我々のアプローチは、従来のモデル統合手法を平均10.1%上回り、同じ学習FLOPsでデータ制限なしに学習された標準MoEを凌駕しました。全体として、この研究は、機密性や保護されたデータを持つ規制業界のデータ所有者と研究者の両方にとっての解決策を提示します。FlexOlmoは、データ所有者の好みを尊重しつつ、クローズドデータの恩恵を受けることを可能にします。具体的には、データをローカルに保持し、推論時のデータアクセスを細かく制御することをサポートします。
English
We introduce FlexOlmo, a new class of language models (LMs) that supports (1)
distributed training without data sharing, where different model parameters are
independently trained on closed datasets, and (2) data-flexible inference,
where these parameters along with their associated data can be flexibly
included or excluded from model inferences with no further training. FlexOlmo
employs a mixture-of-experts (MoE) architecture where each expert is trained
independently on closed datasets and later integrated through a new
domain-informed routing without any joint training. FlexOlmo is trained on
FlexMix, a corpus we curate comprising publicly available datasets alongside
seven domain-specific sets, representing realistic approximations of closed
sets. We evaluate models with up to 37 billion parameters (20 billion active)
on 31 diverse downstream tasks. We show that a general expert trained on public
data can be effectively combined with independently trained experts from other
data owners, leading to an average 41% relative improvement while allowing
users to opt out of certain data based on data licensing or permission
requirements. Our approach also outperforms prior model merging methods by
10.1% on average and surpasses the standard MoE trained without data
restrictions using the same training FLOPs. Altogether, this research presents
a solution for both data owners and researchers in regulated industries with
sensitive or protected data. FlexOlmo enables benefiting from closed data while
respecting data owners' preferences by keeping their data local and supporting
fine-grained control of data access during inference.