ChatPaper.aiChatPaper

MixtureVitae: Conjunto de Dados de Pré-treinamento em Escala Web Aberta com Instruções de Alta Qualidade e Dados de Raciocínio Construídos a partir de Fontes de Texto com Licenças Permissivas

MixtureVitae: Open Web-Scale Pretraining Dataset With High Quality Instruction and Reasoning Data Built from Permissive-First Text Sources

September 29, 2025
Autores: Huu Nguyen, Victor May, Harsh Raj, Marianna Nezhurina, Yishan Wang, Yanqi Luo, Minh Chien Vu, Taishi Nakamura, Ken Tsui, Van Khue Nguyen, David Salinas, Aleksandra Krasnodębska, Christoph Schuhmann, Mats Leon Richter, Xuan-Son, Vu, Jenia Jitsev
cs.AI

Resumo

Apresentamos o MixtureVitae, um corpus de pré-treinamento de acesso aberto desenvolvido para minimizar riscos legais enquanto oferece um forte desempenho de modelos. O MixtureVitae segue uma estratégia de obtenção de dados mitigada em relação a riscos, combinando textos de domínio público e licenciados de forma permissiva (por exemplo, CC-BY/Apache) com adições cuidadosamente justificadas de baixo risco (por exemplo, obras governamentais e fontes elegíveis para TDM da UE), juntamente com instruções direcionadas, raciocínio e dados sintéticos com proveniência documentada. Detalhamos um pipeline transparente e de múltiplas etapas para filtragem consciente de licenças, triagem de segurança e qualidade, e mistura consciente de domínios, e disponibilizamos o conjunto de dados e as receitas de curadoria para apoiar pesquisas reproduzíveis. Em experimentos controlados usando o protocolo de treinamento open-sci-ref (arquiteturas fixas com 130M/400M/1.3B/1.7B de parâmetros; orçamentos de treinamento de 50B e 300B de tokens), modelos treinados no MixtureVitae superam consistentemente outros conjuntos de dados permissivos em uma série de benchmarks padrão, e na configuração de 1.7B/300B eles superam o FineWeb-Edu e se aproximam do DCLM nas fases finais do treinamento. O desempenho é particularmente forte em tarefas de matemática/código e competitivo em tarefas de QA. Esses resultados demonstram que dados de primeira escolha permissivos e mitigados em relação a riscos fornecem uma base prática e legalmente segura para treinar LLMs capazes, reduzindo a dependência de raspagem indiscriminada da web sem sacrificar a competitividade. Código: https://github.com/ontocord/mixturevitae
English
We present MixtureVitae, an open-access pretraining corpus built to minimize legal risk while providing strong model performance. MixtureVitae follows a risk-mitigated sourcing strategy that combines public-domain and permissively licensed text (e.g., CC-BY/Apache) with carefully justified low-risk additions (e.g., government works and EU TDM-eligible sources), alongside targeted instruction, reasoning and synthetic data with documented provenance. We detail a transparent, multi-stage pipeline for license-aware filtering, safety and quality screening, and domain-aware mixing, and we release the dataset and curation recipes to support reproducible research. In controlled experiments using the open-sci-ref training protocol (fixed architectures at 130M/400M/1.3B/1.7B parameters; training budgets of 50B and 300B tokens), models trained on MixtureVitae consistently outperform other permissive datasets across a suite of standard benchmarks, and at the 1.7B/300B setting they surpass FineWeb-Edu and approach DCLM in the later stages of training. Performance is particularly strong on math/code and competitive on QA tasks. These results demonstrate that permissive-first, risk-mitigated data provides a practical and legally mitigated foundation for training capable LLMs, reducing reliance on indiscriminate web scraping without sacrificing competitiveness. Code: https://github.com/ontocord/mixturevitae
PDF73October 2, 2025