FlexOlmo : Modèles de langage ouverts pour une utilisation flexible des données
FlexOlmo: Open Language Models for Flexible Data Use
July 9, 2025
papers.authors: Weijia Shi, Akshita Bhagia, Kevin Farhat, Niklas Muennighoff, Pete Walsh, Jacob Morrison, Dustin Schwenk, Shayne Longpre, Jake Poznanski, Allyson Ettinger, Daogao Liu, Margaret Li, Dirk Groeneveld, Mike Lewis, Wen-tau Yih, Luca Soldaini, Kyle Lo, Noah A. Smith, Luke Zettlemoyer, Pang Wei Koh, Hannaneh Hajishirzi, Ali Farhadi, Sewon Min
cs.AI
papers.abstract
Nous présentons FlexOlmo, une nouvelle classe de modèles de langage (LMs) qui prend en charge (1) l'entraînement distribué sans partage de données, où différents paramètres du modèle sont entraînés indépendamment sur des ensembles de données fermés, et (2) l'inférence flexible des données, où ces paramètres ainsi que leurs données associées peuvent être inclus ou exclus de manière flexible des inférences du modèle sans nécessiter d'entraînement supplémentaire. FlexOlmo utilise une architecture de mélange d'experts (MoE) où chaque expert est entraîné indépendamment sur des ensembles de données fermés, puis intégré via un nouveau routage informé par le domaine sans aucun entraînement conjoint. FlexOlmo est entraîné sur FlexMix, un corpus que nous avons constitué comprenant des ensembles de données publiques ainsi que sept ensembles spécifiques à des domaines, représentant des approximations réalistes d'ensembles fermés. Nous évaluons des modèles allant jusqu'à 37 milliards de paramètres (20 milliards actifs) sur 31 tâches en aval variées. Nous montrons qu'un expert général entraîné sur des données publiques peut être efficacement combiné avec des experts entraînés indépendamment par d'autres propriétaires de données, conduisant à une amélioration relative moyenne de 41 % tout en permettant aux utilisateurs de se retirer de certaines données en fonction des licences ou des exigences d'autorisation. Notre approche surpasse également les méthodes précédentes de fusion de modèles de 10,1 % en moyenne et dépasse le MoE standard entraîné sans restrictions de données en utilisant le même nombre de FLOPs d'entraînement. Dans l'ensemble, cette recherche propose une solution pour les propriétaires de données et les chercheurs dans des industries réglementées avec des données sensibles ou protégées. FlexOlmo permet de bénéficier des données fermées tout en respectant les préférences des propriétaires de données en gardant leurs données locales et en offrant un contrôle granulaire de l'accès aux données lors de l'inférence.
English
We introduce FlexOlmo, a new class of language models (LMs) that supports (1)
distributed training without data sharing, where different model parameters are
independently trained on closed datasets, and (2) data-flexible inference,
where these parameters along with their associated data can be flexibly
included or excluded from model inferences with no further training. FlexOlmo
employs a mixture-of-experts (MoE) architecture where each expert is trained
independently on closed datasets and later integrated through a new
domain-informed routing without any joint training. FlexOlmo is trained on
FlexMix, a corpus we curate comprising publicly available datasets alongside
seven domain-specific sets, representing realistic approximations of closed
sets. We evaluate models with up to 37 billion parameters (20 billion active)
on 31 diverse downstream tasks. We show that a general expert trained on public
data can be effectively combined with independently trained experts from other
data owners, leading to an average 41% relative improvement while allowing
users to opt out of certain data based on data licensing or permission
requirements. Our approach also outperforms prior model merging methods by
10.1% on average and surpasses the standard MoE trained without data
restrictions using the same training FLOPs. Altogether, this research presents
a solution for both data owners and researchers in regulated industries with
sensitive or protected data. FlexOlmo enables benefiting from closed data while
respecting data owners' preferences by keeping their data local and supporting
fine-grained control of data access during inference.