FlexOlmo: Modelos de Linguagem Abertos para Uso Flexível de Dados
FlexOlmo: Open Language Models for Flexible Data Use
July 9, 2025
Autores: Weijia Shi, Akshita Bhagia, Kevin Farhat, Niklas Muennighoff, Pete Walsh, Jacob Morrison, Dustin Schwenk, Shayne Longpre, Jake Poznanski, Allyson Ettinger, Daogao Liu, Margaret Li, Dirk Groeneveld, Mike Lewis, Wen-tau Yih, Luca Soldaini, Kyle Lo, Noah A. Smith, Luke Zettlemoyer, Pang Wei Koh, Hannaneh Hajishirzi, Ali Farhadi, Sewon Min
cs.AI
Resumo
Apresentamos o FlexOlmo, uma nova classe de modelos de linguagem (LMs) que suporta (1) treinamento distribuído sem compartilhamento de dados, onde diferentes parâmetros do modelo são treinados independentemente em conjuntos de dados fechados, e (2) inferência flexível em relação aos dados, onde esses parâmetros, juntamente com seus dados associados, podem ser incluídos ou excluídos de forma flexível das inferências do modelo sem necessidade de treinamento adicional. O FlexOlmo emprega uma arquitetura de mistura de especialistas (MoE), na qual cada especialista é treinado independentemente em conjuntos de dados fechados e posteriormente integrado por meio de um novo roteamento informado por domínio, sem qualquer treinamento conjunto. O FlexOlmo é treinado no FlexMix, um corpus que criamos composto por conjuntos de dados publicamente disponíveis, juntamente com sete conjuntos específicos de domínios, representando aproximações realistas de conjuntos fechados. Avaliamos modelos com até 37 bilhões de parâmetros (20 bilhões ativos) em 31 tarefas diversas de downstream. Demonstramos que um especialista geral treinado em dados públicos pode ser efetivamente combinado com especialistas treinados independentemente por outros proprietários de dados, resultando em uma melhoria relativa média de 41%, ao mesmo tempo que permite que os usuários optem por não utilizar determinados dados com base em requisitos de licenciamento ou permissão. Nossa abordagem também supera métodos anteriores de fusão de modelos em 10,1%, em média, e ultrapassa o MoE padrão treinado sem restrições de dados, utilizando o mesmo número de FLOPs de treinamento. Em suma, esta pesquisa apresenta uma solução tanto para proprietários de dados quanto para pesquisadores em indústrias regulamentadas com dados sensíveis ou protegidos. O FlexOlmo permite beneficiar-se de dados fechados, respeitando as preferências dos proprietários de dados, mantendo seus dados locais e oferecendo controle refinado do acesso aos dados durante a inferência.
English
We introduce FlexOlmo, a new class of language models (LMs) that supports (1)
distributed training without data sharing, where different model parameters are
independently trained on closed datasets, and (2) data-flexible inference,
where these parameters along with their associated data can be flexibly
included or excluded from model inferences with no further training. FlexOlmo
employs a mixture-of-experts (MoE) architecture where each expert is trained
independently on closed datasets and later integrated through a new
domain-informed routing without any joint training. FlexOlmo is trained on
FlexMix, a corpus we curate comprising publicly available datasets alongside
seven domain-specific sets, representing realistic approximations of closed
sets. We evaluate models with up to 37 billion parameters (20 billion active)
on 31 diverse downstream tasks. We show that a general expert trained on public
data can be effectively combined with independently trained experts from other
data owners, leading to an average 41% relative improvement while allowing
users to opt out of certain data based on data licensing or permission
requirements. Our approach also outperforms prior model merging methods by
10.1% on average and surpasses the standard MoE trained without data
restrictions using the same training FLOPs. Altogether, this research presents
a solution for both data owners and researchers in regulated industries with
sensitive or protected data. FlexOlmo enables benefiting from closed data while
respecting data owners' preferences by keeping their data local and supporting
fine-grained control of data access during inference.