Gaperon: Un conjunto de modelos lingüísticos generativos inglés-francés con pimienta.
Gaperon: A Peppered English-French Generative Language Model Suite
October 29, 2025
Autores: Nathan Godey, Wissam Antoun, Rian Touchent, Rachel Bawden, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI
Resumen
Lanzamos Gaperon, un conjunto completamente abierto de modelos de lenguaje francés-inglés-codificación diseñado para impulsar la transparencia y reproducibilidad en el entrenamiento de modelos a gran escala. La familia Gaperon incluye modelos de 1.5B, 8B y 24B de parámetros entrenados con 2-4 billones de tokens, liberados con todos los elementos del pipeline de entrenamiento: conjuntos de datos en francés e inglés filtrados con un clasificador neuronal de calidad, un marco eficiente de curación de datos y entrenamiento, y cientos de puntos de control intermedios. Mediante este trabajo, estudiamos cómo interactúan el filtrado de datos y la contaminación para moldear tanto el rendimiento en benchmarks como la capacidad generativa. Descubrimos que filtrar por calidad lingüística mejora la fluidez y coherencia textual pero produce resultados subóptimos en benchmarks, y que la contaminación deliberada tardía —continuar el entrenamiento con mezclas de datos que incluyen conjuntos de prueba— recupera puntuaciones competitivas mientras perjudica razonablemente la calidad generativa. Discutimos cómo el filtrado neuronal habitual puede amplificar involuntariamente la filtración en benchmarks. Para apoyar investigaciones futuras, también introducimos envenenamiento de datos inofensivo durante el preentrenamiento, proporcionando un banco de pruebas realista para estudios de seguridad. Al liberar abiertamente todos los modelos, conjuntos de datos, código y puntos de control, Gaperon establece una base reproducible para explorar las compensaciones entre curación de datos, evaluación, seguridad y apertura en el desarrollo de modelos de lenguaje multilingües.
English
We release Gaperon, a fully open suite of French-English-coding language
models designed to advance transparency and reproducibility in large-scale
model training. The Gaperon family includes 1.5B, 8B, and 24B parameter models
trained on 2-4 trillion tokens, released with all elements of the training
pipeline: French and English datasets filtered with a neural quality
classifier, an efficient data curation and training framework, and hundreds of
intermediate checkpoints. Through this work, we study how data filtering and
contamination interact to shape both benchmark and generative performance. We
find that filtering for linguistic quality enhances text fluency and coherence
but yields subpar benchmark results, and that late deliberate contamination --
continuing training on data mixes that include test sets -- recovers
competitive scores while only reasonably harming generation quality. We discuss
how usual neural filtering can unintentionally amplify benchmark leakage. To
support further research, we also introduce harmless data poisoning during
pretraining, providing a realistic testbed for safety studies. By openly
releasing all models, datasets, code, and checkpoints, Gaperon establishes a
reproducible foundation for exploring the trade-offs between data curation,
evaluation, safety, and openness in multilingual language model development.