FlexOlmo: Modelli Linguistici Aperti per un Utilizzo Flessibile dei Dati
FlexOlmo: Open Language Models for Flexible Data Use
July 9, 2025
Autori: Weijia Shi, Akshita Bhagia, Kevin Farhat, Niklas Muennighoff, Pete Walsh, Jacob Morrison, Dustin Schwenk, Shayne Longpre, Jake Poznanski, Allyson Ettinger, Daogao Liu, Margaret Li, Dirk Groeneveld, Mike Lewis, Wen-tau Yih, Luca Soldaini, Kyle Lo, Noah A. Smith, Luke Zettlemoyer, Pang Wei Koh, Hannaneh Hajishirzi, Ali Farhadi, Sewon Min
cs.AI
Abstract
Introduciamo FlexOlmo, una nuova classe di modelli linguistici (LM) che supporta (1) l'addestramento distribuito senza condivisione di dati, dove diversi parametri del modello vengono addestrati in modo indipendente su dataset chiusi, e (2) l'inferenza flessibile rispetto ai dati, dove questi parametri insieme ai loro dati associati possono essere inclusi o esclusi in modo flessibile dalle inferenze del modello senza ulteriore addestramento. FlexOlmo utilizza un'architettura mixture-of-experts (MoE) in cui ogni esperto viene addestrato in modo indipendente su dataset chiusi e successivamente integrato attraverso un nuovo routing informato dal dominio senza alcun addestramento congiunto. FlexOlmo viene addestrato su FlexMix, un corpus che abbiamo curato comprendente dataset pubblicamente disponibili insieme a sette insiemi specifici per dominio, rappresentanti approssimazioni realistiche di set chiusi. Valutiamo modelli con fino a 37 miliardi di parametri (20 miliardi attivi) su 31 task downstream diversi. Mostriamo che un esperto generale addestrato su dati pubblici può essere efficacemente combinato con esperti addestrati in modo indipendente da altri proprietari di dati, portando a un miglioramento relativo medio del 41% consentendo agli utenti di rinunciare a determinati dati in base ai requisiti di licenza o permesso dei dati. Il nostro approccio supera anche i precedenti metodi di fusione di modelli del 10,1% in media e supera il MoE standard addestrato senza restrizioni sui dati utilizzando gli stessi FLOP di addestramento. Nel complesso, questa ricerca presenta una soluzione sia per i proprietari di dati che per i ricercatori in settori regolamentati con dati sensibili o protetti. FlexOlmo consente di trarre vantaggio dai dati chiusi rispettando le preferenze dei proprietari di dati mantenendo i loro dati locali e supportando un controllo granulare dell'accesso ai dati durante l'inferenza.
English
We introduce FlexOlmo, a new class of language models (LMs) that supports (1)
distributed training without data sharing, where different model parameters are
independently trained on closed datasets, and (2) data-flexible inference,
where these parameters along with their associated data can be flexibly
included or excluded from model inferences with no further training. FlexOlmo
employs a mixture-of-experts (MoE) architecture where each expert is trained
independently on closed datasets and later integrated through a new
domain-informed routing without any joint training. FlexOlmo is trained on
FlexMix, a corpus we curate comprising publicly available datasets alongside
seven domain-specific sets, representing realistic approximations of closed
sets. We evaluate models with up to 37 billion parameters (20 billion active)
on 31 diverse downstream tasks. We show that a general expert trained on public
data can be effectively combined with independently trained experts from other
data owners, leading to an average 41% relative improvement while allowing
users to opt out of certain data based on data licensing or permission
requirements. Our approach also outperforms prior model merging methods by
10.1% on average and surpasses the standard MoE trained without data
restrictions using the same training FLOPs. Altogether, this research presents
a solution for both data owners and researchers in regulated industries with
sensitive or protected data. FlexOlmo enables benefiting from closed data while
respecting data owners' preferences by keeping their data local and supporting
fine-grained control of data access during inference.