TF1-EN-3M: Drie Miljoen Synthetische Moraalfabels voor het Trainen van Kleine, Open Taalmodellen
TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models
April 29, 2025
Auteurs: Mihai Nadas, Laura Diosan, Andrei Piscoran, Andreea Tomescu
cs.AI
Samenvatting
Morele verhalen zijn een beproefd middel om waarden over te dragen, maar moderne NLP beschikt niet over een grote, gestructureerde corpus die samenhangende verhalen koppelt aan expliciete ethische lessen. Wij dichten deze leemte met TF1-EN-3M, de eerste open dataset van drie miljoen Engelstalige fabels die uitsluitend zijn gegenereerd door instructie-getrainde modellen van niet meer dan 8B parameters. Elk verhaal volgt een zes-slot structuur (personage -> eigenschap -> setting -> conflict -> oplossing -> moraal), geproduceerd via een combinatorische prompt-engine die genregetrouwheid garandeert terwijl een breed thematisch spectrum wordt bestreken.
Een hybride evaluatiepijplijn combineert (i) een GPT-gebaseerde criticus die grammatica, creativiteit, morele duidelijkheid en sjabloontrouw beoordeelt met (ii) referentievrije diversiteits- en leesbaarheidsmetrieken. Onder tien open-weight kandidaten levert een 8B-parameter Llama-3 variant de beste kwaliteit-snelheid verhouding, waarbij hoogscorende fabels worden geproduceerd op een enkele consumenten-GPU (<24 GB VRAM) tegen ongeveer 13,5 cent per 1.000 fabels.
Wij publiceren de dataset, generatiecode, evaluatiescripts en volledige metadata onder een permissieve licentie, wat exacte reproduceerbaarheid en kostenbenchmarking mogelijk maakt. TF1-EN-3M opent nieuwe mogelijkheden voor onderzoek in instructievolging, narratieve intelligentie, waardenafstemming en kindvriendelijke educatieve AI, en toont aan dat grootschalige morele vertelling niet langer afhankelijk is van propriëtaire gigantische modellen.
English
Moral stories are a time-tested vehicle for transmitting values, yet modern
NLP lacks a large, structured corpus that couples coherent narratives with
explicit ethical lessons. We close this gap with TF1-EN-3M, the first open
dataset of three million English-language fables generated exclusively by
instruction-tuned models no larger than 8B parameters. Each story follows a
six-slot scaffold (character -> trait -> setting -> conflict -> resolution ->
moral), produced through a combinatorial prompt engine that guarantees genre
fidelity while covering a broad thematic space.
A hybrid evaluation pipeline blends (i) a GPT-based critic that scores
grammar, creativity, moral clarity, and template adherence with (ii)
reference-free diversity and readability metrics. Among ten open-weight
candidates, an 8B-parameter Llama-3 variant delivers the best quality-speed
trade-off, producing high-scoring fables on a single consumer GPU (<24 GB VRAM)
at approximately 13.5 cents per 1,000 fables.
We release the dataset, generation code, evaluation scripts, and full
metadata under a permissive license, enabling exact reproducibility and cost
benchmarking. TF1-EN-3M opens avenues for research in instruction following,
narrative intelligence, value alignment, and child-friendly educational AI,
demonstrating that large-scale moral storytelling no longer requires
proprietary giant models.