FlexOlmo: Open Taalmodellen voor Flexibel Data Gebruik
FlexOlmo: Open Language Models for Flexible Data Use
July 9, 2025
Auteurs: Weijia Shi, Akshita Bhagia, Kevin Farhat, Niklas Muennighoff, Pete Walsh, Jacob Morrison, Dustin Schwenk, Shayne Longpre, Jake Poznanski, Allyson Ettinger, Daogao Liu, Margaret Li, Dirk Groeneveld, Mike Lewis, Wen-tau Yih, Luca Soldaini, Kyle Lo, Noah A. Smith, Luke Zettlemoyer, Pang Wei Koh, Hannaneh Hajishirzi, Ali Farhadi, Sewon Min
cs.AI
Samenvatting
We introduceren FlexOlmo, een nieuwe klasse van taalmodelen (LMs) die (1) gedistribueerde training zonder data-deling ondersteunt, waarbij verschillende modelparameters onafhankelijk worden getraind op gesloten datasets, en (2) data-flexibele inferentie, waarbij deze parameters samen met hun bijbehorende data flexibel kunnen worden in- of uitgesloten bij modelinferenties zonder verdere training. FlexOlmo maakt gebruik van een mixture-of-experts (MoE)-architectuur, waarbij elke expert onafhankelijk wordt getraind op gesloten datasets en later wordt geïntegreerd via een nieuwe domeingebaseerde routering zonder enige gezamenlijke training. FlexOlmo wordt getraind op FlexMix, een door ons samengesteld corpus bestaande uit publiekelijk beschikbare datasets naast zeven domeinspecifieke sets, die realistische benaderingen vormen van gesloten sets. We evalueren modellen met tot 37 miljard parameters (20 miljard actief) op 31 diverse downstream taken. We laten zien dat een algemene expert getraind op publieke data effectief kan worden gecombineerd met onafhankelijk getrainde experts van andere data-eigenaren, wat leidt tot een gemiddelde relatieve verbetering van 41% terwijl gebruikers de mogelijkheid hebben om bepaalde data uit te sluiten op basis van data-licenties of toestemmingsvereisten. Onze aanpak overtreft ook eerdere methoden voor modelmerging met gemiddeld 10,1% en overtreft de standaard MoE die zonder data-beperkingen is getraind met hetzelfde aantal trainings-FLOPs. Samengevat biedt dit onderzoek een oplossing voor zowel data-eigenaren als onderzoekers in gereguleerde industrieën met gevoelige of beschermde data. FlexOlmo maakt het mogelijk te profiteren van gesloten data terwijl de voorkeuren van data-eigenaren worden gerespecteerd door hun data lokaal te houden en fijnmazige controle over data-toegang tijdens inferentie te ondersteunen.
English
We introduce FlexOlmo, a new class of language models (LMs) that supports (1)
distributed training without data sharing, where different model parameters are
independently trained on closed datasets, and (2) data-flexible inference,
where these parameters along with their associated data can be flexibly
included or excluded from model inferences with no further training. FlexOlmo
employs a mixture-of-experts (MoE) architecture where each expert is trained
independently on closed datasets and later integrated through a new
domain-informed routing without any joint training. FlexOlmo is trained on
FlexMix, a corpus we curate comprising publicly available datasets alongside
seven domain-specific sets, representing realistic approximations of closed
sets. We evaluate models with up to 37 billion parameters (20 billion active)
on 31 diverse downstream tasks. We show that a general expert trained on public
data can be effectively combined with independently trained experts from other
data owners, leading to an average 41% relative improvement while allowing
users to opt out of certain data based on data licensing or permission
requirements. Our approach also outperforms prior model merging methods by
10.1% on average and surpasses the standard MoE trained without data
restrictions using the same training FLOPs. Altogether, this research presents
a solution for both data owners and researchers in regulated industries with
sensitive or protected data. FlexOlmo enables benefiting from closed data while
respecting data owners' preferences by keeping their data local and supporting
fine-grained control of data access during inference.