ChatPaper.aiChatPaper

MixtureVitae: 허용 우선 텍스트 소스를 기반으로 구축된 고품질 지시 및 추론 데이터를 포함한 오픈 웹 스케일 사전 학습 데이터셋

MixtureVitae: Open Web-Scale Pretraining Dataset With High Quality Instruction and Reasoning Data Built from Permissive-First Text Sources

September 29, 2025
저자: Huu Nguyen, Victor May, Harsh Raj, Marianna Nezhurina, Yishan Wang, Yanqi Luo, Minh Chien Vu, Taishi Nakamura, Ken Tsui, Van Khue Nguyen, David Salinas, Aleksandra Krasnodębska, Christoph Schuhmann, Mats Leon Richter, Xuan-Son, Vu, Jenia Jitsev
cs.AI

초록

우리는 법적 리스크를 최소화하면서도 강력한 모델 성능을 제공하기 위해 구축된 오픈 액세스 프리트레이닝 코퍼스인 MixtureVitae를 소개한다. MixtureVitae는 공개 도메인 및 허가형 라이선스(예: CC-BY/Apache) 텍스트와 신중하게 검토된 저위험 추가 자료(예: 정부 저작물 및 EU TDM 적격 소스)를 결합한 리스크 완화 소싱 전략을 따르며, 출처가 문서화된 목적 지향적 지시, 추론 및 합성 데이터를 포함한다. 우리는 라이선스 인식 필터링, 안전성 및 품질 검사, 도메인 인식 혼합을 위한 투명한 다단계 파이프라인을 상세히 설명하고, 재현 가능한 연구를 지원하기 위해 데이터셋과 큐레이션 레시피를 공개한다. 오픈-사이-레프(open-sci-ref) 훈련 프로토콜(130M/400M/1.3B/1.7B 파라미터의 고정 아키텍처; 50B 및 300B 토큰의 훈련 예산)을 사용한 통제 실험에서, MixtureVitae로 훈련된 모델은 표준 벤치마크 스위트에서 다른 허가형 데이터셋을 지속적으로 능가하며, 1.7B/300B 설정에서는 훈련 후반부에 FineWeb-Edu를 넘어서고 DCLM에 근접한다. 특히 수학/코드 작업에서 강력한 성능을 보이며, QA 작업에서도 경쟁력 있는 결과를 보인다. 이러한 결과는 허가형 우선, 리스크 완화 데이터가 능력 있는 대형 언어 모델(LLM) 훈련을 위한 실용적이고 법적으로 완화된 기반을 제공하며, 경쟁력을 희생하지 않고도 무분별한 웹 스크래핑에 대한 의존도를 줄일 수 있음을 보여준다. 코드: https://github.com/ontocord/mixturevitae
English
We present MixtureVitae, an open-access pretraining corpus built to minimize legal risk while providing strong model performance. MixtureVitae follows a risk-mitigated sourcing strategy that combines public-domain and permissively licensed text (e.g., CC-BY/Apache) with carefully justified low-risk additions (e.g., government works and EU TDM-eligible sources), alongside targeted instruction, reasoning and synthetic data with documented provenance. We detail a transparent, multi-stage pipeline for license-aware filtering, safety and quality screening, and domain-aware mixing, and we release the dataset and curation recipes to support reproducible research. In controlled experiments using the open-sci-ref training protocol (fixed architectures at 130M/400M/1.3B/1.7B parameters; training budgets of 50B and 300B tokens), models trained on MixtureVitae consistently outperform other permissive datasets across a suite of standard benchmarks, and at the 1.7B/300B setting they surpass FineWeb-Edu and approach DCLM in the later stages of training. Performance is particularly strong on math/code and competitive on QA tasks. These results demonstrate that permissive-first, risk-mitigated data provides a practical and legally mitigated foundation for training capable LLMs, reducing reliance on indiscriminate web scraping without sacrificing competitiveness. Code: https://github.com/ontocord/mixturevitae
PDF63October 2, 2025