Gaperon : une suite de modèles de langage génératifs anglais-français poivrée
Gaperon: A Peppered English-French Generative Language Model Suite
October 29, 2025
Autori: Nathan Godey, Wissam Antoun, Rian Touchent, Rachel Bawden, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI
Abstract
Presentiamo Gaperon, una suite completamente open di modelli linguistici francese-inglese-progammazione, progettata per promuovere la trasparenza e la riproducibilità nell'addestramento di modelli su larga scala. La famiglia Gaperon include modelli da 1.5B, 8B e 24B di parametri, addestrati su 2-4 trilioni di token, rilasciati con tutti gli elementi della pipeline di addestramento: dataset in francese e inglese filtrati con un classificatore neurale di qualità, un framework efficiente per la curatela dei dati e l'addestramento, e centinaia di checkpoint intermedi. Attraverso questo lavoro, studiamo come l'interazione tra filtraggio dei dati e contaminazione plasmi le performance sia sui benchmark che nella generazione. Scopriamo che il filtraggio per qualità linguistica migliora la fluidità e la coerenza del testo, ma produce risultati inferiori ai benchmark, e che una contaminazione deliberata tardiva – proseguendo l'addestramento su mix di dati che includono i set di test – permette di recuperare punteggi competitivi danneggiando solo in misura ragionevole la qualità generativa. Discutiamo di come il consueto filtraggio neurale possa amplificare involontariamente la fuoriuscita di dati dai benchmark. Per supportare ulteriori ricerche, introduciamo anche un data poisoning innocuo durante il pre-training, fornendo un banco di prova realistico per studi sulla sicurezza. Rilasciando apertamente tutti i modelli, i dataset, il codice e i checkpoint, Gaperon stabilisce una base riproducibile per esplorare i compromessi tra curatela dei dati, valutazione, sicurezza e apertura nello sviluppo di modelli linguistici multilingue.
English
We release Gaperon, a fully open suite of French-English-coding language
models designed to advance transparency and reproducibility in large-scale
model training. The Gaperon family includes 1.5B, 8B, and 24B parameter models
trained on 2-4 trillion tokens, released with all elements of the training
pipeline: French and English datasets filtered with a neural quality
classifier, an efficient data curation and training framework, and hundreds of
intermediate checkpoints. Through this work, we study how data filtering and
contamination interact to shape both benchmark and generative performance. We
find that filtering for linguistic quality enhances text fluency and coherence
but yields subpar benchmark results, and that late deliberate contamination --
continuing training on data mixes that include test sets -- recovers
competitive scores while only reasonably harming generation quality. We discuss
how usual neural filtering can unintentionally amplify benchmark leakage. To
support further research, we also introduce harmless data poisoning during
pretraining, providing a realistic testbed for safety studies. By openly
releasing all models, datasets, code, and checkpoints, Gaperon establishes a
reproducible foundation for exploring the trade-offs between data curation,
evaluation, safety, and openness in multilingual language model development.