FlexOlmo: Offene Sprachmodelle für flexible Datennutzung

papers.abstract

Wir stellen FlexOlmo vor, eine neue Klasse von Sprachmodellen (LMs), die (1) verteiltes Training ohne Datenaustausch unterstützt, bei dem verschiedene Modellparameter unabhängig auf geschlossenen Datensätzen trainiert werden, und (2) datenflexible Inferenz ermöglicht, bei der diese Parameter zusammen mit ihren zugehörigen Daten flexibel in Modellinferenzen einbezogen oder davon ausgeschlossen werden können, ohne dass ein weiteres Training erforderlich ist. FlexOlmo verwendet eine Mixture-of-Experts (MoE)-Architektur, bei der jeder Experte unabhängig auf geschlossenen Datensätzen trainiert und später durch ein neues domäneninformiertes Routing ohne gemeinsames Training integriert wird. FlexOlmo wird auf FlexMix trainiert, einem von uns kuratierten Korpus, das öffentlich verfügbare Datensätze sowie sieben domänenspezifische Datensätze umfasst, die realistische Annäherungen an geschlossene Datensätze darstellen. Wir evaluieren Modelle mit bis zu 37 Milliarden Parametern (20 Milliarden aktiv) anhand von 31 verschiedenen Downstream-Aufgaben. Wir zeigen, dass ein allgemeiner Experte, der auf öffentlichen Daten trainiert wurde, effektiv mit unabhängig trainierten Experten anderer Datenbesitzer kombiniert werden kann, was zu einer durchschnittlichen relativen Verbesserung von 41 % führt, während Benutzer die Möglichkeit haben, bestimmte Daten basierend auf Lizenz- oder Berechtigungsanforderungen auszuschließen. Unser Ansatz übertrifft auch frühere Methoden zur Modellzusammenführung im Durchschnitt um 10,1 % und übertrifft das Standard-MoE, das ohne Datenbeschränkungen mit denselben Trainings-FLOPs trainiert wurde. Insgesamt bietet diese Forschung eine Lösung sowohl für Datenbesitzer als auch für Forscher in regulierten Branchen mit sensiblen oder geschützten Daten. FlexOlmo ermöglicht es, von geschlossenen Daten zu profitieren, während die Präferenzen der Datenbesitzer respektiert werden, indem ihre Daten lokal gehalten werden und eine fein granulare Kontrolle des Datenzugriffs während der Inferenz unterstützt wird.

English

We introduce FlexOlmo, a new class of language models (LMs) that supports (1) distributed training without data sharing, where different model parameters are independently trained on closed datasets, and (2) data-flexible inference, where these parameters along with their associated data can be flexibly included or excluded from model inferences with no further training. FlexOlmo employs a mixture-of-experts (MoE) architecture where each expert is trained independently on closed datasets and later integrated through a new domain-informed routing without any joint training. FlexOlmo is trained on FlexMix, a corpus we curate comprising publicly available datasets alongside seven domain-specific sets, representing realistic approximations of closed sets. We evaluate models with up to 37 billion parameters (20 billion active) on 31 diverse downstream tasks. We show that a general expert trained on public data can be effectively combined with independently trained experts from other data owners, leading to an average 41% relative improvement while allowing users to opt out of certain data based on data licensing or permission requirements. Our approach also outperforms prior model merging methods by 10.1% on average and surpasses the standard MoE trained without data restrictions using the same training FLOPs. Altogether, this research presents a solution for both data owners and researchers in regulated industries with sensitive or protected data. FlexOlmo enables benefiting from closed data while respecting data owners' preferences by keeping their data local and supporting fine-grained control of data access during inference.

FlexOlmo: Offene Sprachmodelle für flexible Datennutzung

FlexOlmo: Open Language Models for Flexible Data Use

papers.abstract

Support