Gaperon : une suite de modèles de langage génératifs anglais-français poivrée

Abstract

Presentiamo Gaperon, una suite completamente open di modelli linguistici francese-inglese-progammazione, progettata per promuovere la trasparenza e la riproducibilità nell'addestramento di modelli su larga scala. La famiglia Gaperon include modelli da 1.5B, 8B e 24B di parametri, addestrati su 2-4 trilioni di token, rilasciati con tutti gli elementi della pipeline di addestramento: dataset in francese e inglese filtrati con un classificatore neurale di qualità, un framework efficiente per la curatela dei dati e l'addestramento, e centinaia di checkpoint intermedi. Attraverso questo lavoro, studiamo come l'interazione tra filtraggio dei dati e contaminazione plasmi le performance sia sui benchmark che nella generazione. Scopriamo che il filtraggio per qualità linguistica migliora la fluidità e la coerenza del testo, ma produce risultati inferiori ai benchmark, e che una contaminazione deliberata tardiva – proseguendo l'addestramento su mix di dati che includono i set di test – permette di recuperare punteggi competitivi danneggiando solo in misura ragionevole la qualità generativa. Discutiamo di come il consueto filtraggio neurale possa amplificare involontariamente la fuoriuscita di dati dai benchmark. Per supportare ulteriori ricerche, introduciamo anche un data poisoning innocuo durante il pre-training, fornendo un banco di prova realistico per studi sulla sicurezza. Rilasciando apertamente tutti i modelli, i dataset, il codice e i checkpoint, Gaperon stabilisce una base riproducibile per esplorare i compromessi tra curatela dei dati, valutazione, sicurezza e apertura nello sviluppo di modelli linguistici multilingue.

English

We release Gaperon, a fully open suite of French-English-coding language models designed to advance transparency and reproducibility in large-scale model training. The Gaperon family includes 1.5B, 8B, and 24B parameter models trained on 2-4 trillion tokens, released with all elements of the training pipeline: French and English datasets filtered with a neural quality classifier, an efficient data curation and training framework, and hundreds of intermediate checkpoints. Through this work, we study how data filtering and contamination interact to shape both benchmark and generative performance. We find that filtering for linguistic quality enhances text fluency and coherence but yields subpar benchmark results, and that late deliberate contamination -- continuing training on data mixes that include test sets -- recovers competitive scores while only reasonably harming generation quality. We discuss how usual neural filtering can unintentionally amplify benchmark leakage. To support further research, we also introduce harmless data poisoning during pretraining, providing a realistic testbed for safety studies. By openly releasing all models, datasets, code, and checkpoints, Gaperon establishes a reproducible foundation for exploring the trade-offs between data curation, evaluation, safety, and openness in multilingual language model development.

Gaperon : une suite de modèles de langage génératifs anglais-français poivrée

Gaperon: A Peppered English-French Generative Language Model Suite

Abstract

Support