ChatPaper.aiChatPaper

Apertus : Démocratiser les modèles de langage ouverts et conformes pour les environnements linguistiques mondiaux

Apertus: Democratizing Open and Compliant LLMs for Global Language Environments

September 17, 2025
papers.authors: Alejandro Hernández-Cano, Alexander Hägele, Allen Hao Huang, Angelika Romanou, Antoni-Joan Solergibert, Barna Pasztor, Bettina Messmer, Dhia Garbaya, Eduard Frank Ďurech, Ido Hakimi, Juan García Giraldo, Mete Ismayilzada, Negar Foroutan, Skander Moalla, Tiancheng Chen, Vinko Sabolčec, Yixuan Xu, Michael Aerni, Badr AlKhamissi, Ines Altemir Marinas, Mohammad Hossein Amani, Matin Ansaripour, Ilia Badanin, Harold Benoit, Emanuela Boros, Nicholas Browning, Fabian Bösch, Maximilian Böther, Niklas Canova, Camille Challier, Clement Charmillot, Jonathan Coles, Jan Deriu, Arnout Devos, Lukas Drescher, Daniil Dzenhaliou, Maud Ehrmann, Dongyang Fan, Simin Fan, Silin Gao, Miguel Gila, María Grandury, Diba Hashemi, Alexander Hoyle, Jiaming Jiang, Mark Klein, Andrei Kucharavy, Anastasiia Kucherenko, Frederike Lübeck, Roman Machacek, Theofilos Manitaras, Andreas Marfurt, Kyle Matoba, Simon Matrenok, Henrique Mendoncça, Fawzi Roberto Mohamed, Syrielle Montariol, Luca Mouchel, Sven Najem-Meyer, Jingwei Ni, Gennaro Oliva, Matteo Pagliardini, Elia Palme, Andrei Panferov, Léo Paoletti, Marco Passerini, Ivan Pavlov, Auguste Poiroux, Kaustubh Ponkshe, Nathan Ranchin, Javi Rando, Mathieu Sauser, Jakhongir Saydaliev, Muhammad Ali Sayfiddinov, Marian Schneider, Stefano Schuppli, Marco Scialanga, Andrei Semenov, Kumar Shridhar, Raghav Singhal, Anna Sotnikova, Alexander Sternfeld, Ayush Kumar Tarun, Paul Teiletche, Jannis Vamvas, Xiaozhe Yao, Hao Zhao Alexander Ilic, Ana Klimovic, Andreas Krause, Caglar Gulcehre, David Rosenthal, Elliott Ash, Florian Tramèr, Joost VandeVondele, Livio Veraldi, Martin Rajman, Thomas Schulthess, Torsten Hoefler, Antoine Bosselut, Martin Jaggi, Imanol Schlag
cs.AI

papers.abstract

Nous présentons Apertus, une suite entièrement ouverte de grands modèles de langage (LLMs) conçue pour répondre à deux lacunes systémiques de l'écosystème actuel des modèles ouverts : la conformité des données et la représentation multilingue. Contrairement à de nombreux modèles antérieurs qui publient des poids sans pipelines de données reproductibles ou sans considération pour les droits des propriétaires de contenu, les modèles Apertus sont pré-entraînés exclusivement sur des données ouvertement disponibles, en respectant rétroactivement les exclusions robots.txt et en filtrant les contenus non permissifs, toxiques et contenant des informations personnelles identifiables. Pour atténuer les risques de mémorisation, nous adoptons l'objectif Goldfish lors du pré-entraînement, supprimant fortement la récitation littérale des données tout en conservant les performances sur les tâches en aval. Les modèles Apertus élargissent également la couverture multilingue, s'entraînant sur 15 000 milliards de tokens provenant de plus de 1800 langues, avec environ 40 % des données de pré-entraînement allouées à des contenus non anglophones. Publiés aux échelles de 8 milliards et 70 milliards de paramètres, les modèles Apertus atteignent des résultats proches de l'état de l'art parmi les modèles entièrement ouverts sur des benchmarks multilingues, rivalisant ou surpassant leurs homologues à poids ouverts. Au-delà des poids des modèles, nous publions tous les artefacts scientifiques de notre cycle de développement sous une licence permissive, incluant les scripts de préparation des données, les points de contrôle, les suites d'évaluation et le code d'entraînement, permettant ainsi un audit et une extension transparents.
English
We present Apertus, a fully open suite of large language models (LLMs) designed to address two systemic shortcomings in today's open model ecosystem: data compliance and multilingual representation. Unlike many prior models that release weights without reproducible data pipelines or regard for content-owner rights, Apertus models are pretrained exclusively on openly available data, retroactively respecting robots.txt exclusions and filtering for non-permissive, toxic, and personally identifiable content. To mitigate risks of memorization, we adopt the Goldfish objective during pretraining, strongly suppressing verbatim recall of data while retaining downstream task performance. The Apertus models also expand multilingual coverage, training on 15T tokens from over 1800 languages, with ~40% of pretraining data allocated to non-English content. Released at 8B and 70B scales, Apertus approaches state-of-the-art results among fully open models on multilingual benchmarks, rivalling or surpassing open-weight counterparts. Beyond model weights, we release all scientific artifacts from our development cycle with a permissive license, including data preparation scripts, checkpoints, evaluation suites, and training code, enabling transparent audit and extension.
PDF92September 22, 2025