TF1-EN-3M: Drei Millionen synthetische moralische Fabeln zur Schulung kleiner, offener Sprachmodelle
TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models
April 29, 2025
Autoren: Mihai Nadas, Laura Diosan, Andrei Piscoran, Andreea Tomescu
cs.AI
Zusammenfassung
Moralgeschichten sind ein bewährtes Mittel zur Vermittlung von Werten, doch der modernen NLP-Forschung fehlt ein umfangreiches, strukturiertes Korpus, das kohärente Erzählungen mit expliziten ethischen Lehren verbindet. Wir schließen diese Lücke mit TF1-EN-3M, dem ersten offenen Datensatz von drei Millionen englischsprachigen Fabeln, die ausschließlich von Instruktions-finetunierten Modellen mit maximal 8B Parametern generiert wurden. Jede Geschichte folgt einem sechsstufigen Gerüst (Charakter -> Eigenschaft -> Setting -> Konflikt -> Lösung -> Moral), das durch einen kombinatorischen Prompt-Generator erzeugt wird, der Genre-Treue gewährleistet und gleichzeitig ein breites thematisches Spektrum abdeckt.
Eine hybride Evaluationspipeline kombiniert (i) einen GPT-basierten Kritiker, der Grammatik, Kreativität, moralische Klarheit und Vorlagen-Treue bewertet, mit (ii) referenzfreien Metriken für Diversität und Lesbarkeit. Unter zehn Open-Weight-Kandidaten liefert eine 8B-Parameter-Variante von Llama-3 das beste Qualitäts-Geschwindigkeits-Verhältnis und erzeugt hoch bewertete Fabeln auf einer einzelnen Consumer-GPU (<24 GB VRAM) zu Kosten von etwa 13,5 Cent pro 1.000 Fabeln.
Wir veröffentlichen den Datensatz, den Generierungscode, die Evaluationsskripte und die vollständigen Metadaten unter einer freizügigen Lizenz, was exakte Reproduzierbarkeit und Kostenvergleiche ermöglicht. TF1-EN-3M eröffnet neue Forschungsmöglichkeiten in den Bereichen Instruktionsbefolgung, narrative Intelligenz, Wertausrichtung und kindgerechter Bildungs-KI und zeigt, dass groß angelegtes moralisches Geschichtenerzählen keine proprietären Riesenmodelle mehr erfordert.
English
Moral stories are a time-tested vehicle for transmitting values, yet modern
NLP lacks a large, structured corpus that couples coherent narratives with
explicit ethical lessons. We close this gap with TF1-EN-3M, the first open
dataset of three million English-language fables generated exclusively by
instruction-tuned models no larger than 8B parameters. Each story follows a
six-slot scaffold (character -> trait -> setting -> conflict -> resolution ->
moral), produced through a combinatorial prompt engine that guarantees genre
fidelity while covering a broad thematic space.
A hybrid evaluation pipeline blends (i) a GPT-based critic that scores
grammar, creativity, moral clarity, and template adherence with (ii)
reference-free diversity and readability metrics. Among ten open-weight
candidates, an 8B-parameter Llama-3 variant delivers the best quality-speed
trade-off, producing high-scoring fables on a single consumer GPU (<24 GB VRAM)
at approximately 13.5 cents per 1,000 fables.
We release the dataset, generation code, evaluation scripts, and full
metadata under a permissive license, enabling exact reproducibility and cost
benchmarking. TF1-EN-3M opens avenues for research in instruction following,
narrative intelligence, value alignment, and child-friendly educational AI,
demonstrating that large-scale moral storytelling no longer requires
proprietary giant models.Summary
AI-Generated Summary