Apertus: Democratización de modelos de lenguaje grandes abiertos y conformes para entornos lingüísticos globales
Apertus: Democratizing Open and Compliant LLMs for Global Language Environments
September 17, 2025
Autores: Alejandro Hernández-Cano, Alexander Hägele, Allen Hao Huang, Angelika Romanou, Antoni-Joan Solergibert, Barna Pasztor, Bettina Messmer, Dhia Garbaya, Eduard Frank Ďurech, Ido Hakimi, Juan García Giraldo, Mete Ismayilzada, Negar Foroutan, Skander Moalla, Tiancheng Chen, Vinko Sabolčec, Yixuan Xu, Michael Aerni, Badr AlKhamissi, Ines Altemir Marinas, Mohammad Hossein Amani, Matin Ansaripour, Ilia Badanin, Harold Benoit, Emanuela Boros, Nicholas Browning, Fabian Bösch, Maximilian Böther, Niklas Canova, Camille Challier, Clement Charmillot, Jonathan Coles, Jan Deriu, Arnout Devos, Lukas Drescher, Daniil Dzenhaliou, Maud Ehrmann, Dongyang Fan, Simin Fan, Silin Gao, Miguel Gila, María Grandury, Diba Hashemi, Alexander Hoyle, Jiaming Jiang, Mark Klein, Andrei Kucharavy, Anastasiia Kucherenko, Frederike Lübeck, Roman Machacek, Theofilos Manitaras, Andreas Marfurt, Kyle Matoba, Simon Matrenok, Henrique Mendoncça, Fawzi Roberto Mohamed, Syrielle Montariol, Luca Mouchel, Sven Najem-Meyer, Jingwei Ni, Gennaro Oliva, Matteo Pagliardini, Elia Palme, Andrei Panferov, Léo Paoletti, Marco Passerini, Ivan Pavlov, Auguste Poiroux, Kaustubh Ponkshe, Nathan Ranchin, Javi Rando, Mathieu Sauser, Jakhongir Saydaliev, Muhammad Ali Sayfiddinov, Marian Schneider, Stefano Schuppli, Marco Scialanga, Andrei Semenov, Kumar Shridhar, Raghav Singhal, Anna Sotnikova, Alexander Sternfeld, Ayush Kumar Tarun, Paul Teiletche, Jannis Vamvas, Xiaozhe Yao, Hao Zhao Alexander Ilic, Ana Klimovic, Andreas Krause, Caglar Gulcehre, David Rosenthal, Elliott Ash, Florian Tramèr, Joost VandeVondele, Livio Veraldi, Martin Rajman, Thomas Schulthess, Torsten Hoefler, Antoine Bosselut, Martin Jaggi, Imanol Schlag
cs.AI
Resumen
Presentamos Apertus, una suite completamente abierta de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) diseñada para abordar dos deficiencias sistémicas en el ecosistema actual de modelos abiertos: el cumplimiento de datos y la representación multilingüe. A diferencia de muchos modelos anteriores que publican pesos sin pipelines de datos reproducibles o consideración por los derechos de los propietarios del contenido, los modelos de Apertus se entrenan exclusivamente con datos disponibles abiertamente, respetando retroactivamente las exclusiones de robots.txt y filtrando contenido no permisivo, tóxico y con información personal identificable. Para mitigar los riesgos de memorización, adoptamos el objetivo Goldfish durante el entrenamiento, suprimiendo fuertemente la recuperación textual de los datos mientras se mantiene el rendimiento en tareas posteriores. Los modelos de Apertus también amplían la cobertura multilingüe, entrenándose con 15T de tokens de más de 1800 idiomas, asignando aproximadamente el 40% de los datos de entrenamiento a contenido no en inglés. Lanzados en escalas de 8B y 70B, Apertus se acerca a los resultados de vanguardia entre los modelos completamente abiertos en benchmarks multilingües, rivalizando o superando a sus contrapartes de pesos abiertos. Más allá de los pesos del modelo, publicamos todos los artefactos científicos de nuestro ciclo de desarrollo con una licencia permisiva, incluyendo scripts de preparación de datos, puntos de control, suites de evaluación y código de entrenamiento, permitiendo una auditoría y extensión transparentes.
English
We present Apertus, a fully open suite of large language models (LLMs)
designed to address two systemic shortcomings in today's open model ecosystem:
data compliance and multilingual representation. Unlike many prior models that
release weights without reproducible data pipelines or regard for content-owner
rights, Apertus models are pretrained exclusively on openly available data,
retroactively respecting robots.txt exclusions and filtering for
non-permissive, toxic, and personally identifiable content. To mitigate risks
of memorization, we adopt the Goldfish objective during pretraining, strongly
suppressing verbatim recall of data while retaining downstream task
performance. The Apertus models also expand multilingual coverage, training on
15T tokens from over 1800 languages, with ~40% of pretraining data allocated to
non-English content. Released at 8B and 70B scales, Apertus approaches
state-of-the-art results among fully open models on multilingual benchmarks,
rivalling or surpassing open-weight counterparts. Beyond model weights, we
release all scientific artifacts from our development cycle with a permissive
license, including data preparation scripts, checkpoints, evaluation suites,
and training code, enabling transparent audit and extension.