Gaperon: Uma Suíte de Modelos de Linguagem Generativa Inglês-Francês com Pimenta
Gaperon: A Peppered English-French Generative Language Model Suite
October 29, 2025
Autores: Nathan Godey, Wissam Antoun, Rian Touchent, Rachel Bawden, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI
Resumo
Lançamos o Gaperon, um conjunto totalmente aberto de modelos de linguagem francês-inglês-codificação projetado para promover a transparência e a reprodutibilidade no treinamento de modelos em larga escala. A família Gaperon inclui modelos de 1,5B, 8B e 24B de parâmetros treinados com 2-4 trilhões de tokens, disponibilizados com todos os elementos do pipeline de treinamento: conjuntos de dados em francês e inglês filtrados por um classificador neural de qualidade, uma estrutura eficiente de curadoria de dados e treinamento, e centenas de checkpoints intermediários. Através deste trabalho, investigamos como a filtragem de dados e a contaminação interagem para moldar o desempenho tanto em benchmarks quanto na geração. Descobrimos que a filtragem por qualidade linguística melhora a fluência e a coerência textual, mas produz resultados inferiores em benchmarks, e que a contaminação deliberada tardia – continuar o treinamento com misturas de dados que incluem conjuntos de teste – recupera pontuações competitivas enquanto prejudica de forma razoável a qualidade da geração. Discutimos como a filtragem neural usual pode amplificar involuntariamente o vazamento de benchmarks. Para apoiar pesquisas futuras, também introduzimos envenenamento de dados inofensivo durante o pré-treinamento, fornecendo um ambiente de teste realista para estudos de segurança. Ao disponibilizar abertamente todos os modelos, conjuntos de dados, códigos e checkpoints, o Gaperon estabelece uma base reproduzível para explorar os trade-offs entre curadoria de dados, avaliação, segurança e abertura no desenvolvimento de modelos de linguagem multilíngues.
English
We release Gaperon, a fully open suite of French-English-coding language
models designed to advance transparency and reproducibility in large-scale
model training. The Gaperon family includes 1.5B, 8B, and 24B parameter models
trained on 2-4 trillion tokens, released with all elements of the training
pipeline: French and English datasets filtered with a neural quality
classifier, an efficient data curation and training framework, and hundreds of
intermediate checkpoints. Through this work, we study how data filtering and
contamination interact to shape both benchmark and generative performance. We
find that filtering for linguistic quality enhances text fluency and coherence
but yields subpar benchmark results, and that late deliberate contamination --
continuing training on data mixes that include test sets -- recovers
competitive scores while only reasonably harming generation quality. We discuss
how usual neural filtering can unintentionally amplify benchmark leakage. To
support further research, we also introduce harmless data poisoning during
pretraining, providing a realistic testbed for safety studies. By openly
releasing all models, datasets, code, and checkpoints, Gaperon establishes a
reproducible foundation for exploring the trade-offs between data curation,
evaluation, safety, and openness in multilingual language model development.