FlexOlmo: Modelos de Lenguaje Abiertos para el Uso Flexible de Datos

Resumen

Presentamos FlexOlmo, una nueva clase de modelos de lenguaje (LM) que permite (1) entrenamiento distribuido sin compartir datos, donde diferentes parámetros del modelo se entrenan de forma independiente en conjuntos de datos cerrados, y (2) inferencia flexible con respecto a los datos, donde estos parámetros junto con sus datos asociados pueden incluirse o excluirse de manera flexible en las inferencias del modelo sin necesidad de entrenamiento adicional. FlexOlmo utiliza una arquitectura de mezcla de expertos (MoE) en la que cada experto se entrena de forma independiente en conjuntos de datos cerrados y luego se integra mediante un nuevo enrutamiento informado por el dominio, sin ningún entrenamiento conjunto. FlexOlmo se entrena en FlexMix, un corpus que hemos creado compuesto por conjuntos de datos disponibles públicamente junto con siete conjuntos específicos de dominio, que representan aproximaciones realistas de conjuntos cerrados. Evaluamos modelos con hasta 37 mil millones de parámetros (20 mil millones activos) en 31 tareas diversas. Demostramos que un experto general entrenado con datos públicos puede combinarse eficazmente con expertos entrenados de forma independiente por otros propietarios de datos, lo que resulta en una mejora relativa promedio del 41%, al mismo tiempo que permite a los usuarios optar por excluir ciertos datos según los requisitos de licencias o permisos. Nuestro enfoque también supera los métodos anteriores de fusión de modelos en un 10.1% en promedio y supera al MoE estándar entrenado sin restricciones de datos utilizando el mismo número de FLOPs de entrenamiento. En conjunto, esta investigación presenta una solución tanto para los propietarios de datos como para los investigadores en industrias reguladas con datos sensibles o protegidos. FlexOlmo permite beneficiarse de datos cerrados mientras se respetan las preferencias de los propietarios de datos al mantener sus datos locales y apoyar un control detallado del acceso a los datos durante la inferencia.

English

We introduce FlexOlmo, a new class of language models (LMs) that supports (1) distributed training without data sharing, where different model parameters are independently trained on closed datasets, and (2) data-flexible inference, where these parameters along with their associated data can be flexibly included or excluded from model inferences with no further training. FlexOlmo employs a mixture-of-experts (MoE) architecture where each expert is trained independently on closed datasets and later integrated through a new domain-informed routing without any joint training. FlexOlmo is trained on FlexMix, a corpus we curate comprising publicly available datasets alongside seven domain-specific sets, representing realistic approximations of closed sets. We evaluate models with up to 37 billion parameters (20 billion active) on 31 diverse downstream tasks. We show that a general expert trained on public data can be effectively combined with independently trained experts from other data owners, leading to an average 41% relative improvement while allowing users to opt out of certain data based on data licensing or permission requirements. Our approach also outperforms prior model merging methods by 10.1% on average and surpasses the standard MoE trained without data restrictions using the same training FLOPs. Altogether, this research presents a solution for both data owners and researchers in regulated industries with sensitive or protected data. FlexOlmo enables benefiting from closed data while respecting data owners' preferences by keeping their data local and supporting fine-grained control of data access during inference.

FlexOlmo: Modelos de Lenguaje Abiertos para el Uso Flexible de Datos

FlexOlmo: Open Language Models for Flexible Data Use

Resumen

Support