TF1-EN-3M: Drie Miljoen Synthetische Moraalfabels voor het Trainen van Kleine, Open Taalmodellen

Samenvatting

Morele verhalen zijn een beproefd middel om waarden over te dragen, maar moderne NLP beschikt niet over een grote, gestructureerde corpus die samenhangende verhalen koppelt aan expliciete ethische lessen. Wij dichten deze leemte met TF1-EN-3M, de eerste open dataset van drie miljoen Engelstalige fabels die uitsluitend zijn gegenereerd door instructie-getrainde modellen van niet meer dan 8B parameters. Elk verhaal volgt een zes-slot structuur (personage -> eigenschap -> setting -> conflict -> oplossing -> moraal), geproduceerd via een combinatorische prompt-engine die genregetrouwheid garandeert terwijl een breed thematisch spectrum wordt bestreken. Een hybride evaluatiepijplijn combineert (i) een GPT-gebaseerde criticus die grammatica, creativiteit, morele duidelijkheid en sjabloontrouw beoordeelt met (ii) referentievrije diversiteits- en leesbaarheidsmetrieken. Onder tien open-weight kandidaten levert een 8B-parameter Llama-3 variant de beste kwaliteit-snelheid verhouding, waarbij hoogscorende fabels worden geproduceerd op een enkele consumenten-GPU (<24 GB VRAM) tegen ongeveer 13,5 cent per 1.000 fabels. Wij publiceren de dataset, generatiecode, evaluatiescripts en volledige metadata onder een permissieve licentie, wat exacte reproduceerbaarheid en kostenbenchmarking mogelijk maakt. TF1-EN-3M opent nieuwe mogelijkheden voor onderzoek in instructievolging, narratieve intelligentie, waardenafstemming en kindvriendelijke educatieve AI, en toont aan dat grootschalige morele vertelling niet langer afhankelijk is van propriëtaire gigantische modellen.

English

Moral stories are a time-tested vehicle for transmitting values, yet modern NLP lacks a large, structured corpus that couples coherent narratives with explicit ethical lessons. We close this gap with TF1-EN-3M, the first open dataset of three million English-language fables generated exclusively by instruction-tuned models no larger than 8B parameters. Each story follows a six-slot scaffold (character -> trait -> setting -> conflict -> resolution -> moral), produced through a combinatorial prompt engine that guarantees genre fidelity while covering a broad thematic space. A hybrid evaluation pipeline blends (i) a GPT-based critic that scores grammar, creativity, moral clarity, and template adherence with (ii) reference-free diversity and readability metrics. Among ten open-weight candidates, an 8B-parameter Llama-3 variant delivers the best quality-speed trade-off, producing high-scoring fables on a single consumer GPU (<24 GB VRAM) at approximately 13.5 cents per 1,000 fables. We release the dataset, generation code, evaluation scripts, and full metadata under a permissive license, enabling exact reproducibility and cost benchmarking. TF1-EN-3M opens avenues for research in instruction following, narrative intelligence, value alignment, and child-friendly educational AI, demonstrating that large-scale moral storytelling no longer requires proprietary giant models.

TF1-EN-3M: Drie Miljoen Synthetische Moraalfabels voor het Trainen van Kleine, Open Taalmodellen

TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models

Samenvatting

Support