Gaperon : Une suite de modèles génératifs linguistiques anglais-français au poivre
Gaperon: A Peppered English-French Generative Language Model Suite
October 29, 2025
papers.authors: Nathan Godey, Wissam Antoun, Rian Touchent, Rachel Bawden, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI
papers.abstract
Nous présentons Gaperon, une suite entièrement ouverte de modèles de langage français-anglais-informatique conçue pour faire progresser la transparence et la reproductibilité dans l'entraînement de modèles à grande échelle. La famille Gaperon comprend des modèles de 1,5B, 8B et 24B de paramètres entraînés sur 2 à 4 billions de tokens, publiés avec tous les éléments de la chaîne d'entraînement : des jeux de données français et anglais filtrés par un classifieur neuronal de qualité, un cadre efficace de curation des données et d'entraînement, et des centaines de points de contrôle intermédiaires. À travers ce travail, nous étudions comment le filtrage des données et la contamination interagissent pour façonner les performances tant sur les benchmarks que génératives. Nous constatons que le filtrage pour la qualité linguistique améliore la fluidité et la cohérence du texte mais donne des résultats médiocres sur les benchmarks, et qu'une contamination délibérée tardive – poursuivre l'entraînement sur des mélanges de données incluant les ensembles de test – permet de retrouver des scores compétitifs tout en n'altérant la qualité générative que de manière raisonnable. Nous discutons comment le filtrage neuronal habituel peut amplifier involontairement les fuites de benchmarks. Pour soutenir la recherche future, nous introduisons également un empoisonnement de données inoffensif pendant le pré-entraînement, fournissant ainsi un banc d'essai réaliste pour les études de sécurité. En publiant ouvertement tous les modèles, jeux de données, codes et points de contrôle, Gaperon établit une base reproductible pour explorer les compromis entre curation des données, évaluation, sécurité et ouverture dans le développement de modèles de langage multilingues.
English
We release Gaperon, a fully open suite of French-English-coding language
models designed to advance transparency and reproducibility in large-scale
model training. The Gaperon family includes 1.5B, 8B, and 24B parameter models
trained on 2-4 trillion tokens, released with all elements of the training
pipeline: French and English datasets filtered with a neural quality
classifier, an efficient data curation and training framework, and hundreds of
intermediate checkpoints. Through this work, we study how data filtering and
contamination interact to shape both benchmark and generative performance. We
find that filtering for linguistic quality enhances text fluency and coherence
but yields subpar benchmark results, and that late deliberate contamination --
continuing training on data mixes that include test sets -- recovers
competitive scores while only reasonably harming generation quality. We discuss
how usual neural filtering can unintentionally amplify benchmark leakage. To
support further research, we also introduce harmless data poisoning during
pretraining, providing a realistic testbed for safety studies. By openly
releasing all models, datasets, code, and checkpoints, Gaperon establishes a
reproducible foundation for exploring the trade-offs between data curation,
evaluation, safety, and openness in multilingual language model development.