ChatPaper.aiChatPaper

Gaperon: 후추 뿌린 영어-프랑스어 생성형 언어 모델 제품군

Gaperon: A Peppered English-French Generative Language Model Suite

October 29, 2025
저자: Nathan Godey, Wissam Antoun, Rian Touchent, Rachel Bawden, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
cs.AI

초록

우리는 대규모 모델 훈련의 투명성과 재현성을 발전시키기 위해 설계된 프랑스어-영어-코딩 언어 모델의 완전 오픈형 제품군인 Gaperon을 공개합니다. Gaperon 패밀리에는 2-4조 토큰으로 훈련된 15억, 80억, 240억 매개변수 모델이 포함되며, 훈련 파이프라인의 모든 요소와 함께 공개됩니다: 신경망 기반 품질 분류기로 필터링된 프랑스어 및 영어 데이터셋, 효율적인 데이터 정제 및 훈련 프레임워크, 수백 개의 중간 체크포인트 등이 그것입니다. 이 작업을 통해 우리는 데이터 필터링과 오염이 벤치마크 및 생성 성능을 형성하는 데 어떻게 상호작용하는지 연구합니다. 언어적 품질을 위한 필터링이 텍스트 유창성과 일관성을 향상시키지만 평균 이하의 벤치마크 결과를 내며, 후기 의도적 오염(테스트 세트를 포함하는 데이터 혼합물로 훈련을 지속하는 것)이 생성 품질을 합리적으로 저해하는 선에서 경쟁력 있는 점수를 회복한다는 사실을 발견했습니다. 우리는 일반적인 신경망 필터링이 어떻게 의도치 않게 벤치마크 유출을 증폭시킬 수 있는지 논의합니다. 추가 연구를 지원하기 위해 사전 훈련 중 무해한 데이터 포이즈닝을 도입하여 안전성 연구를 위한 현실적인 테스트베드를 제공합니다. 모든 모델, 데이터셋, 코드, 체크포인트를 공개함으로써 Gaperon은 다국어 언어 모델 개발에서 데이터 정제, 평가, 안전성, 개방성 간의 상충 관계를 탐구하기 위한 재현 가능한 기반을 마련합니다.
English
We release Gaperon, a fully open suite of French-English-coding language models designed to advance transparency and reproducibility in large-scale model training. The Gaperon family includes 1.5B, 8B, and 24B parameter models trained on 2-4 trillion tokens, released with all elements of the training pipeline: French and English datasets filtered with a neural quality classifier, an efficient data curation and training framework, and hundreds of intermediate checkpoints. Through this work, we study how data filtering and contamination interact to shape both benchmark and generative performance. We find that filtering for linguistic quality enhances text fluency and coherence but yields subpar benchmark results, and that late deliberate contamination -- continuing training on data mixes that include test sets -- recovers competitive scores while only reasonably harming generation quality. We discuss how usual neural filtering can unintentionally amplify benchmark leakage. To support further research, we also introduce harmless data poisoning during pretraining, providing a realistic testbed for safety studies. By openly releasing all models, datasets, code, and checkpoints, Gaperon establishes a reproducible foundation for exploring the trade-offs between data curation, evaluation, safety, and openness in multilingual language model development.
PDF152December 2, 2025