MixtureVitae: Conjunto de Datos de Pretrenamiento a Escala Web Abierto con Instrucciones y Datos de Razonamiento de Alta Calidad Construido a partir de Fuentes de Texto con Enfoque en Permisividad
MixtureVitae: Open Web-Scale Pretraining Dataset With High Quality Instruction and Reasoning Data Built from Permissive-First Text Sources
September 29, 2025
Autores: Huu Nguyen, Victor May, Harsh Raj, Marianna Nezhurina, Yishan Wang, Yanqi Luo, Minh Chien Vu, Taishi Nakamura, Ken Tsui, Van Khue Nguyen, David Salinas, Aleksandra Krasnodębska, Christoph Schuhmann, Mats Leon Richter, Xuan-Son, Vu, Jenia Jitsev
cs.AI
Resumen
Presentamos MixtureVitae, un corpus de preentrenamiento de acceso abierto diseñado para minimizar el riesgo legal mientras proporciona un rendimiento sólido del modelo. MixtureVitae sigue una estrategia de obtención de datos mitigada en términos de riesgo, que combina textos de dominio público y con licencias permisivas (por ejemplo, CC-BY/Apache) con adiciones de bajo riesgo cuidadosamente justificadas (por ejemplo, obras gubernamentales y fuentes elegibles para TDM de la UE), junto con instrucciones específicas, razonamiento y datos sintéticos con procedencia documentada. Detallamos una canalización transparente y de múltiples etapas para el filtrado basado en licencias, la evaluación de seguridad y calidad, y la mezcla consciente del dominio, y publicamos el conjunto de datos y las recetas de curación para apoyar la investigación reproducible. En experimentos controlados utilizando el protocolo de entrenamiento open-sci-ref (arquitecturas fijas con 130M/400M/1.3B/1.7B parámetros; presupuestos de entrenamiento de 50B y 300B tokens), los modelos entrenados con MixtureVitae superan consistentemente a otros conjuntos de datos permisivos en una serie de benchmarks estándar, y en la configuración de 1.7B/300B superan a FineWeb-Edu y se acercan a DCLM en las etapas avanzadas del entrenamiento. El rendimiento es particularmente fuerte en tareas de matemáticas/código y competitivo en tareas de preguntas y respuestas. Estos resultados demuestran que los datos con enfoque permisivo y mitigación de riesgo proporcionan una base práctica y legalmente segura para entrenar modelos de lenguaje capaces, reduciendo la dependencia del raspado web indiscriminado sin sacrificar la competitividad. Código: https://github.com/ontocord/mixturevitae
English
We present MixtureVitae, an open-access pretraining corpus built to minimize
legal risk while providing strong model performance. MixtureVitae follows a
risk-mitigated sourcing strategy that combines public-domain and permissively
licensed text (e.g., CC-BY/Apache) with carefully justified low-risk additions
(e.g., government works and EU TDM-eligible sources), alongside targeted
instruction, reasoning and synthetic data with documented provenance. We detail
a transparent, multi-stage pipeline for license-aware filtering, safety and
quality screening, and domain-aware mixing, and we release the dataset and
curation recipes to support reproducible research. In controlled experiments
using the open-sci-ref training protocol (fixed architectures at
130M/400M/1.3B/1.7B parameters; training budgets of 50B and 300B tokens),
models trained on MixtureVitae consistently outperform other permissive
datasets across a suite of standard benchmarks, and at the 1.7B/300B setting
they surpass FineWeb-Edu and approach DCLM in the later stages of training.
Performance is particularly strong on math/code and competitive on QA tasks.
These results demonstrate that permissive-first, risk-mitigated data provides a
practical and legally mitigated foundation for training capable LLMs, reducing
reliance on indiscriminate web scraping without sacrificing competitiveness.
Code: https://github.com/ontocord/mixturevitae