ChatPaper.aiChatPaper

TF1-EN-3M: Три миллиона синтетических моральных басен для обучения небольших открытых языковых моделей

TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models

April 29, 2025
Авторы: Mihai Nadas, Laura Diosan, Andrei Piscoran, Andreea Tomescu
cs.AI

Аннотация

Моральные истории являются проверенным временем средством передачи ценностей, однако современные методы обработки естественного языка (NLP) не располагают крупным структурированным корпусом, который сочетает связные повествования с явными этическими уроками. Мы устраняем этот пробел с помощью TF1-EN-3M — первого открытого набора данных, содержащего три миллиона англоязычных басен, сгенерированных исключительно моделями, настроенными на выполнение инструкций, с параметрами не более 8 миллиардов. Каждая история следует шестиэлементному шаблону (персонаж -> черта характера -> обстановка -> конфликт -> разрешение -> мораль), созданному с помощью комбинаторного механизма подсказок, который гарантирует соответствие жанру и охватывает широкий тематический спектр. Гибридный процесс оценки сочетает (i) критику на основе GPT, которая оценивает грамматику, креативность, ясность морали и соблюдение шаблона, с (ii) метриками разнообразия и удобочитаемости, не требующими эталонных данных. Среди десяти кандидатов с открытыми весами вариант Llama-3 с 8 миллиардами параметров демонстрирует наилучший баланс качества и скорости, генерируя высокооцененные басни на одной потребительской видеокарте (<24 ГБ видеопамяти) при стоимости примерно 13,5 центов за 1000 басен. Мы публикуем набор данных, код генерации, скрипты оценки и полные метаданные под разрешительной лицензией, что обеспечивает точную воспроизводимость и сравнение затрат. TF1-EN-3M открывает новые возможности для исследований в области следования инструкциям, нарративного интеллекта, согласования ценностей и создания дружественных для детей образовательных ИИ, демонстрируя, что масштабное моральное повествование больше не требует использования проприетарных гигантских моделей.
English
Moral stories are a time-tested vehicle for transmitting values, yet modern NLP lacks a large, structured corpus that couples coherent narratives with explicit ethical lessons. We close this gap with TF1-EN-3M, the first open dataset of three million English-language fables generated exclusively by instruction-tuned models no larger than 8B parameters. Each story follows a six-slot scaffold (character -> trait -> setting -> conflict -> resolution -> moral), produced through a combinatorial prompt engine that guarantees genre fidelity while covering a broad thematic space. A hybrid evaluation pipeline blends (i) a GPT-based critic that scores grammar, creativity, moral clarity, and template adherence with (ii) reference-free diversity and readability metrics. Among ten open-weight candidates, an 8B-parameter Llama-3 variant delivers the best quality-speed trade-off, producing high-scoring fables on a single consumer GPU (<24 GB VRAM) at approximately 13.5 cents per 1,000 fables. We release the dataset, generation code, evaluation scripts, and full metadata under a permissive license, enabling exact reproducibility and cost benchmarking. TF1-EN-3M opens avenues for research in instruction following, narrative intelligence, value alignment, and child-friendly educational AI, demonstrating that large-scale moral storytelling no longer requires proprietary giant models.

Summary

AI-Generated Summary

PDF52May 4, 2025