Gaperon: Een Suite van Generatieve Taalmodellen voor Engels-Frans met Peperkorrelstructuur
Gaperon: A Peppered English-French Generative Language Model Suite
October 29, 2025
Auteurs: Nathan Godey, Wissam Antoun, Rian Touchent, Rachel Bawden, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI
Samenvatting
Wij presenteren Gaperon, een volledig open suite van Frans-Engels-coderende taalmodellen, ontworpen om transparantie en reproduceerbaarheid in grootschalige modeltraining te bevorderen. De Gaperon-familie omvat modellen van 1,5B, 8B en 24B parameters, getraind op 2-4 biljoen tokens, en wordt vrijgegeven met alle elementen van de trainingspijplijn: Franse en Engelse datasets gefilterd met een neurale kwaliteitsclassificator, een efficiënt framework voor datacuratie en training, en honderden tussentijdse checkpoints. Via dit werk onderzoeken we hoe datafiltering en contaminatie interacteren om zowel benchmark- als generatieve prestaties te vormen. Wij constateren dat filteren op linguïstische kwaliteit tekstvloeiendheid en coherentie verbetert, maar tot ondermaatse benchmarkresultaten leidt, en dat late doelbewuste contaminatie – het voortzetten van training op datamengsels die testverzamelingen bevatten – competitieve scores herstelt terwijl het de generatiekwaliteit slechts in redelijke mate schaadt. Wij bespreken hoe gebruikelijke neurale filtering onbedoeld benchmarklekkage kan versterken. Om verder onderzoek te ondersteunen, introduceren we ook onschadelijke datavergiftiging tijdens de voortraining, wat een realistische testomgeving biedt voor veiligheidsstudies. Door alle modellen, datasets, code en checkpoints openbaar vrij te geven, legt Gaperon een reproduceerbare basis voor het verkennen van de afwegingen tussen datacuratie, evaluatie, veiligheid en openheid in meertalige taalmodellontwikkeling.
English
We release Gaperon, a fully open suite of French-English-coding language
models designed to advance transparency and reproducibility in large-scale
model training. The Gaperon family includes 1.5B, 8B, and 24B parameter models
trained on 2-4 trillion tokens, released with all elements of the training
pipeline: French and English datasets filtered with a neural quality
classifier, an efficient data curation and training framework, and hundreds of
intermediate checkpoints. Through this work, we study how data filtering and
contamination interact to shape both benchmark and generative performance. We
find that filtering for linguistic quality enhances text fluency and coherence
but yields subpar benchmark results, and that late deliberate contamination --
continuing training on data mixes that include test sets -- recovers
competitive scores while only reasonably harming generation quality. We discuss
how usual neural filtering can unintentionally amplify benchmark leakage. To
support further research, we also introduce harmless data poisoning during
pretraining, providing a realistic testbed for safety studies. By openly
releasing all models, datasets, code, and checkpoints, Gaperon establishes a
reproducible foundation for exploring the trade-offs between data curation,
evaluation, safety, and openness in multilingual language model development.