FlexOlmo: Открытые языковые модели для гибкого использования данных
FlexOlmo: Open Language Models for Flexible Data Use
July 9, 2025
Авторы: Weijia Shi, Akshita Bhagia, Kevin Farhat, Niklas Muennighoff, Pete Walsh, Jacob Morrison, Dustin Schwenk, Shayne Longpre, Jake Poznanski, Allyson Ettinger, Daogao Liu, Margaret Li, Dirk Groeneveld, Mike Lewis, Wen-tau Yih, Luca Soldaini, Kyle Lo, Noah A. Smith, Luke Zettlemoyer, Pang Wei Koh, Hannaneh Hajishirzi, Ali Farhadi, Sewon Min
cs.AI
Аннотация
Мы представляем FlexOlmo — новый класс языковых моделей (LM), который поддерживает (1) распределённое обучение без обмена данными, где различные параметры модели независимо обучаются на закрытых наборах данных, и (2) гибкий вывод, при котором эти параметры вместе с их связанными данными могут гибко включаться или исключаться из выводов модели без дополнительного обучения. FlexOlmo использует архитектуру смеси экспертов (MoE), где каждый эксперт обучается независимо на закрытых наборах данных, а затем интегрируется с помощью нового маршрутизатора, учитывающего домен, без совместного обучения. FlexOlmo обучается на FlexMix — корпусе, который мы создали, включающем общедоступные наборы данных вместе с семью домен-специфичными наборами, представляющими реалистичные приближения закрытых данных. Мы оцениваем модели с числом параметров до 37 миллиардов (20 миллиардов активных) на 31 разнообразной задаче. Мы показываем, что общий эксперт, обученный на общедоступных данных, может эффективно комбинироваться с независимо обученными экспертами от других владельцев данных, что приводит к среднему относительному улучшению на 41%, при этом позволяя пользователям отказываться от определённых данных на основе лицензионных или разрешительных требований. Наш подход также превосходит предыдущие методы объединения моделей в среднем на 10,1% и превосходит стандартную MoE, обученную без ограничений на данные, при одинаковых затратах на обучение в FLOPs. В целом, это исследование предлагает решение как для владельцев данных, так и для исследователей в регулируемых отраслях с конфиденциальными или защищёнными данными. FlexOlmo позволяет извлекать выгоду из закрытых данных, уважая предпочтения владельцев данных, сохраняя их данные локально и поддерживая детализированный контроль доступа к данным во время вывода.
English
We introduce FlexOlmo, a new class of language models (LMs) that supports (1)
distributed training without data sharing, where different model parameters are
independently trained on closed datasets, and (2) data-flexible inference,
where these parameters along with their associated data can be flexibly
included or excluded from model inferences with no further training. FlexOlmo
employs a mixture-of-experts (MoE) architecture where each expert is trained
independently on closed datasets and later integrated through a new
domain-informed routing without any joint training. FlexOlmo is trained on
FlexMix, a corpus we curate comprising publicly available datasets alongside
seven domain-specific sets, representing realistic approximations of closed
sets. We evaluate models with up to 37 billion parameters (20 billion active)
on 31 diverse downstream tasks. We show that a general expert trained on public
data can be effectively combined with independently trained experts from other
data owners, leading to an average 41% relative improvement while allowing
users to opt out of certain data based on data licensing or permission
requirements. Our approach also outperforms prior model merging methods by
10.1% on average and surpasses the standard MoE trained without data
restrictions using the same training FLOPs. Altogether, this research presents
a solution for both data owners and researchers in regulated industries with
sensitive or protected data. FlexOlmo enables benefiting from closed data while
respecting data owners' preferences by keeping their data local and supporting
fine-grained control of data access during inference.