ChatPaper.aiChatPaper

MixtureVitae: Conjunto de Datos de Pretrenamiento a Escala Web Abierto con Instrucciones y Datos de Razonamiento de Alta Calidad Construido a partir de Fuentes de Texto con Enfoque en Permisividad

MixtureVitae: Open Web-Scale Pretraining Dataset With High Quality Instruction and Reasoning Data Built from Permissive-First Text Sources

September 29, 2025
Autores: Huu Nguyen, Victor May, Harsh Raj, Marianna Nezhurina, Yishan Wang, Yanqi Luo, Minh Chien Vu, Taishi Nakamura, Ken Tsui, Van Khue Nguyen, David Salinas, Aleksandra Krasnodębska, Christoph Schuhmann, Mats Leon Richter, Xuan-Son, Vu, Jenia Jitsev
cs.AI

Resumen

Presentamos MixtureVitae, un corpus de preentrenamiento de acceso abierto diseñado para minimizar el riesgo legal mientras proporciona un rendimiento sólido del modelo. MixtureVitae sigue una estrategia de obtención de datos mitigada en términos de riesgo, que combina textos de dominio público y con licencias permisivas (por ejemplo, CC-BY/Apache) con adiciones de bajo riesgo cuidadosamente justificadas (por ejemplo, obras gubernamentales y fuentes elegibles para TDM de la UE), junto con instrucciones específicas, razonamiento y datos sintéticos con procedencia documentada. Detallamos una canalización transparente y de múltiples etapas para el filtrado basado en licencias, la evaluación de seguridad y calidad, y la mezcla consciente del dominio, y publicamos el conjunto de datos y las recetas de curación para apoyar la investigación reproducible. En experimentos controlados utilizando el protocolo de entrenamiento open-sci-ref (arquitecturas fijas con 130M/400M/1.3B/1.7B parámetros; presupuestos de entrenamiento de 50B y 300B tokens), los modelos entrenados con MixtureVitae superan consistentemente a otros conjuntos de datos permisivos en una serie de benchmarks estándar, y en la configuración de 1.7B/300B superan a FineWeb-Edu y se acercan a DCLM en las etapas avanzadas del entrenamiento. El rendimiento es particularmente fuerte en tareas de matemáticas/código y competitivo en tareas de preguntas y respuestas. Estos resultados demuestran que los datos con enfoque permisivo y mitigación de riesgo proporcionan una base práctica y legalmente segura para entrenar modelos de lenguaje capaces, reduciendo la dependencia del raspado web indiscriminado sin sacrificar la competitividad. Código: https://github.com/ontocord/mixturevitae
English
We present MixtureVitae, an open-access pretraining corpus built to minimize legal risk while providing strong model performance. MixtureVitae follows a risk-mitigated sourcing strategy that combines public-domain and permissively licensed text (e.g., CC-BY/Apache) with carefully justified low-risk additions (e.g., government works and EU TDM-eligible sources), alongside targeted instruction, reasoning and synthetic data with documented provenance. We detail a transparent, multi-stage pipeline for license-aware filtering, safety and quality screening, and domain-aware mixing, and we release the dataset and curation recipes to support reproducible research. In controlled experiments using the open-sci-ref training protocol (fixed architectures at 130M/400M/1.3B/1.7B parameters; training budgets of 50B and 300B tokens), models trained on MixtureVitae consistently outperform other permissive datasets across a suite of standard benchmarks, and at the 1.7B/300B setting they surpass FineWeb-Edu and approach DCLM in the later stages of training. Performance is particularly strong on math/code and competitive on QA tasks. These results demonstrate that permissive-first, risk-mitigated data provides a practical and legally mitigated foundation for training capable LLMs, reducing reliance on indiscriminate web scraping without sacrificing competitiveness. Code: https://github.com/ontocord/mixturevitae
PDF63October 2, 2025