MixtureVitae: Открытый набор данных для предварительного обучения в веб-масштабе с высококачественными инструкциями и данными для логического вывода, созданный на основе текстовых источников с приоритетом разрешительного использования.

Аннотация

Мы представляем MixtureVitae — открытый корпус для предварительного обучения, созданный для минимизации юридических рисков при обеспечении высокой производительности моделей. MixtureVitae использует стратегию сбора данных, направленную на снижение рисков, которая сочетает тексты из общественного достояния и тексты с разрешительными лицензиями (например, CC-BY/Apache) с тщательно обоснованными добавками низкого риска (например, работы государственных органов и источники, соответствующие требованиям EU TDM), а также целевые инструкции, рассуждения и синтетические данные с документированным происхождением. Мы подробно описываем прозрачный многоэтапный процесс, включающий фильтрацию с учетом лицензий, проверку безопасности и качества, а также смешивание с учетом доменов, и публикуем набор данных и рецепты его подготовки для поддержки воспроизводимых исследований. В контролируемых экспериментах с использованием протокола обучения open-sci-ref (фиксированные архитектуры с 130M/400M/1.3B/1.7B параметрами; бюджеты обучения в 50B и 300B токенов) модели, обученные на MixtureVitae, стабильно превосходят другие разрешительные наборы данных на ряде стандартных тестов, а при настройке 1.7B/300B они превосходят FineWeb-Edu и приближаются к DCLM на поздних этапах обучения. Производительность особенно высока на задачах, связанных с математикой и кодом, и конкурентоспособна на задачах вопросов и ответов. Эти результаты демонстрируют, что данные с приоритетом на разрешительные лицензии и сниженным риском предоставляют практичную и юридически безопасную основу для обучения мощных языковых моделей, уменьшая зависимость от неразборчивого веб-скрапинга без ущерба для конкурентоспособности. Код: https://github.com/ontocord/mixturevitae

English

We present MixtureVitae, an open-access pretraining corpus built to minimize legal risk while providing strong model performance. MixtureVitae follows a risk-mitigated sourcing strategy that combines public-domain and permissively licensed text (e.g., CC-BY/Apache) with carefully justified low-risk additions (e.g., government works and EU TDM-eligible sources), alongside targeted instruction, reasoning and synthetic data with documented provenance. We detail a transparent, multi-stage pipeline for license-aware filtering, safety and quality screening, and domain-aware mixing, and we release the dataset and curation recipes to support reproducible research. In controlled experiments using the open-sci-ref training protocol (fixed architectures at 130M/400M/1.3B/1.7B parameters; training budgets of 50B and 300B tokens), models trained on MixtureVitae consistently outperform other permissive datasets across a suite of standard benchmarks, and at the 1.7B/300B setting they surpass FineWeb-Edu and approach DCLM in the later stages of training. Performance is particularly strong on math/code and competitive on QA tasks. These results demonstrate that permissive-first, risk-mitigated data provides a practical and legally mitigated foundation for training capable LLMs, reducing reliance on indiscriminate web scraping without sacrificing competitiveness. Code: https://github.com/ontocord/mixturevitae

MixtureVitae: Open Web-Scale Pretraining Dataset With High Quality Instruction and Reasoning Data Built from Permissive-First Text Sources

Аннотация

Support