Gaperon: 英語とフランス語の生成型言語モデルスイート
Gaperon: A Peppered English-French Generative Language Model Suite
October 29, 2025
著者: Nathan Godey, Wissam Antoun, Rian Touchent, Rachel Bawden, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI
要旨
本論文では、大規模モデル訓練の透明性と再現性を促進するために設計された、フランス語-英語-プログラミング言語対応の完全オープンなモデルスイート「Gaperon」を公開する。Gaperonファミリーは、2~4兆トークンで学習された15億、80億、240億パラメータモデルを含み、訓練パイプラインの全要素とともに公開される:神経网络的品質分類器でフィルタリングされた仏英データセット、効率的なデータ精製及び訓練フレームワーク、数百もの中間チェックポイントである。本研究を通じて、データフィルタリングと汚染(contamination)が、ベンチマーク性能と生成性能の双方を形成する際の相互作用を検証する。言語的品質によるフィルタリングはテキストの流暢性と一貫性を向上させるが、ベンチマーク結果は低調となり、一方で後期の意図的汚染――テストセットを含むデータ混合での訓練継続――は、生成品質を許容範囲で損なうのみで、競争力のあるスコアを回復させることを見出した。一般的な神経网络的フィルタリングが、意図せずベンチマーク漏洩を増幅し得る点についても論じる。さらなる研究を支援するため、事前学習中に無害なデータポイズニングを導入し、安全性研究の現実的なテストベッドを提供する。全てのモデル、データセット、コード、チェックポイントをオープンに公開することにより、Gaperonは多言語言語モデル開発におけるデータ精製、評価、安全性、開放性の間のトレードオフを探求する再現可能な基盤を確立する。
English
We release Gaperon, a fully open suite of French-English-coding language
models designed to advance transparency and reproducibility in large-scale
model training. The Gaperon family includes 1.5B, 8B, and 24B parameter models
trained on 2-4 trillion tokens, released with all elements of the training
pipeline: French and English datasets filtered with a neural quality
classifier, an efficient data curation and training framework, and hundreds of
intermediate checkpoints. Through this work, we study how data filtering and
contamination interact to shape both benchmark and generative performance. We
find that filtering for linguistic quality enhances text fluency and coherence
but yields subpar benchmark results, and that late deliberate contamination --
continuing training on data mixes that include test sets -- recovers
competitive scores while only reasonably harming generation quality. We discuss
how usual neural filtering can unintentionally amplify benchmark leakage. To
support further research, we also introduce harmless data poisoning during
pretraining, providing a realistic testbed for safety studies. By openly
releasing all models, datasets, code, and checkpoints, Gaperon establishes a
reproducible foundation for exploring the trade-offs between data curation,
evaluation, safety, and openness in multilingual language model development.