MixtureVitae: Offenes Web-Skaliges Vortrainierungsdatensatz mit hochwertigen Instruktions- und Argumentationsdaten, erstellt aus textuellen Quellen mit vorrangig freier Lizenzierung

papers.abstract

Wir stellen MixtureVitae vor, ein Open-Access-Pretraining-Korpus, das entwickelt wurde, um rechtliche Risiken zu minimieren und gleichzeitig eine starke Modellleistung zu gewährleisten. MixtureVitae folgt einer risikominimierten Beschaffungsstrategie, die Public-Domain- und permissiv lizenzierte Texte (z. B. CC-BY/Apache) mit sorgfältig begründeten, risikoarmen Ergänzungen (z. B. Regierungswerke und EU-TDM-qualifizierte Quellen) kombiniert, ergänzt durch gezielte Instruktionen, logisches Denken und synthetische Daten mit dokumentierter Herkunft. Wir beschreiben eine transparente, mehrstufige Pipeline für lizenzbewusstes Filtern, Sicherheits- und Qualitätsprüfungen sowie domänenbewusstes Mischen und veröffentlichen den Datensatz sowie die Kurationsrezepte, um reproduzierbare Forschung zu unterstützen. In kontrollierten Experimenten unter Verwendung des Open-Sci-Ref-Trainingsprotokolls (festgelegte Architekturen mit 130M/400M/1,3B/1,7B Parametern; Trainingsbudgets von 50B und 300B Tokens) übertreffen Modelle, die auf MixtureVitae trainiert wurden, durchweg andere permissive Datensätze in einer Reihe von Standardbenchmarks, und im 1,7B/300B-Setting übertreffen sie FineWeb-Edu und nähern sich DCLM in den späteren Trainingsphasen an. Die Leistung ist besonders stark in Mathematik/Code und wettbewerbsfähig bei QA-Aufgaben. Diese Ergebnisse zeigen, dass risikominimierte, permissive Daten eine praktische und rechtlich abgesicherte Grundlage für das Training leistungsfähiger LLMs bieten und die Abhängigkeit von wahllosem Web-Scraping reduzieren, ohne die Wettbewerbsfähigkeit zu opfern. Code: https://github.com/ontocord/mixturevitae

English

We present MixtureVitae, an open-access pretraining corpus built to minimize legal risk while providing strong model performance. MixtureVitae follows a risk-mitigated sourcing strategy that combines public-domain and permissively licensed text (e.g., CC-BY/Apache) with carefully justified low-risk additions (e.g., government works and EU TDM-eligible sources), alongside targeted instruction, reasoning and synthetic data with documented provenance. We detail a transparent, multi-stage pipeline for license-aware filtering, safety and quality screening, and domain-aware mixing, and we release the dataset and curation recipes to support reproducible research. In controlled experiments using the open-sci-ref training protocol (fixed architectures at 130M/400M/1.3B/1.7B parameters; training budgets of 50B and 300B tokens), models trained on MixtureVitae consistently outperform other permissive datasets across a suite of standard benchmarks, and at the 1.7B/300B setting they surpass FineWeb-Edu and approach DCLM in the later stages of training. Performance is particularly strong on math/code and competitive on QA tasks. These results demonstrate that permissive-first, risk-mitigated data provides a practical and legally mitigated foundation for training capable LLMs, reducing reliance on indiscriminate web scraping without sacrificing competitiveness. Code: https://github.com/ontocord/mixturevitae

MixtureVitae: Offenes Web-Skaliges Vortrainierungsdatensatz mit hochwertigen Instruktions- und Argumentationsdaten, erstellt aus textuellen Quellen mit vorrangig freier Lizenzierung

MixtureVitae: Open Web-Scale Pretraining Dataset With High Quality Instruction and Reasoning Data Built from Permissive-First Text Sources

papers.abstract

Support