Gaperon: Eine Suite generativer Sprachmodelle für Englisch und Französisch mit Pfeffer
Gaperon: A Peppered English-French Generative Language Model Suite
October 29, 2025
papers.authors: Nathan Godey, Wissam Antoun, Rian Touchent, Rachel Bawden, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI
papers.abstract
Wir stellen Gaperon vor, eine vollständig offene Suite französisch-englischer Sprachmodelle für Code, die entwickelt wurde, um Transparenz und Reproduzierbarkeit beim Training großskaliger Modelle voranzutreiben. Die Gaperon-Familie umfasst Modelle mit 1,5B, 8B und 24B Parametern, die auf 2-4 Billionen Tokens trainiert und mit allen Elementen der Trainingspipeline veröffentlicht werden: französische und englische Datensätze, die mit einem neuronalen Qualitätsklassifikator gefiltert wurden, ein effizientes Framework für Datenkuratierung und Training sowie hunderte von Zwischencheckpoints. In dieser Arbeit untersuchen wir, wie Datenfilterung und Kontamination zusammenwirken, um sowohl Benchmark- als auch generative Leistung zu beeinflussen. Wir stellen fest, dass Filterung nach linguistischer Qualität Textflüssigkeit und Kohärenz verbessert, aber unterdurchschnittliche Benchmark-Ergebnisse liefert, und dass späte, gezielte Kontamination – das Fortsetzen des Trainings mit Datengemischen, die Testsets enthalten – wettbewerbsfähige Scores zurückgewinnt, während die Generierungsqualität nur in vertretbarem Maße beeinträchtigt wird. Wir diskutieren, wie übliche neuronale Filterung unbeabsichtigt Benchmark-Leckagen verstärken kann. Um weitere Forschung zu unterstützen, führen wir zudem harmlose Datenvergiftung während des Vortrainings ein und bieten so eine realistische Testumgebung für Sicherheitsstudien. Durch die offene Veröffentlichung aller Modelle, Datensätze, Codes und Checkpoints schafft Gaperon eine reproduzierbare Grundlage für die Erforschung der Zielkonflikte zwischen Datenkuratierung, Evaluation, Sicherheit und Offenheit in der Entwicklung mehrsprachiger Sprachmodelle.
English
We release Gaperon, a fully open suite of French-English-coding language
models designed to advance transparency and reproducibility in large-scale
model training. The Gaperon family includes 1.5B, 8B, and 24B parameter models
trained on 2-4 trillion tokens, released with all elements of the training
pipeline: French and English datasets filtered with a neural quality
classifier, an efficient data curation and training framework, and hundreds of
intermediate checkpoints. Through this work, we study how data filtering and
contamination interact to shape both benchmark and generative performance. We
find that filtering for linguistic quality enhances text fluency and coherence
but yields subpar benchmark results, and that late deliberate contamination --
continuing training on data mixes that include test sets -- recovers
competitive scores while only reasonably harming generation quality. We discuss
how usual neural filtering can unintentionally amplify benchmark leakage. To
support further research, we also introduce harmless data poisoning during
pretraining, providing a realistic testbed for safety studies. By openly
releasing all models, datasets, code, and checkpoints, Gaperon establishes a
reproducible foundation for exploring the trade-offs between data curation,
evaluation, safety, and openness in multilingual language model development.