TF1-EN-3M: Tre Milioni di Favole Morali Sintetiche per Addestrare Modelli Linguistici Piccoli e Aperti
TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models
April 29, 2025
Autori: Mihai Nadas, Laura Diosan, Andrei Piscoran, Andreea Tomescu
cs.AI
Abstract
Le storie morali sono un mezzo collaudato nel tempo per trasmettere valori, ma il moderno NLP manca di un ampio corpus strutturato che accoppi narrazioni coerenti con lezioni etiche esplicite. Colmiamo questa lacuna con TF1-EN-3M, il primo dataset aperto di tre milioni di favole in lingua inglese generate esclusivamente da modelli instruction-tuned con non più di 8 miliardi di parametri. Ogni storia segue uno schema a sei slot (personaggio -> tratto -> ambientazione -> conflitto -> risoluzione -> morale), prodotto attraverso un motore combinatorio di prompt che garantisce fedeltà al genere coprendo un ampio spazio tematico.
Una pipeline di valutazione ibrida combina (i) un critico basato su GPT che valuta grammatica, creatività, chiarezza morale e aderenza al template con (ii) metriche reference-free di diversità e leggibilità. Tra dieci candidati open-weight, una variante di Llama-3 da 8 miliardi di parametri offre il miglior compromesso qualità-velocità, producendo favole di alto punteggio su una singola GPU consumer (<24 GB VRAM) a circa 13,5 centesimi per 1.000 favole.
Rilasciamo il dataset, il codice di generazione, gli script di valutazione e i metadati completi con una licenza permissiva, consentendo una riproducibilità esatta e un benchmarking dei costi. TF1-EN-3M apre nuove strade per la ricerca nel seguire istruzioni, nell'intelligenza narrativa, nell'allineamento di valori e nell'IA educativa a misura di bambino, dimostrando che la narrazione morale su larga scala non richiede più modelli giganti proprietari.
English
Moral stories are a time-tested vehicle for transmitting values, yet modern
NLP lacks a large, structured corpus that couples coherent narratives with
explicit ethical lessons. We close this gap with TF1-EN-3M, the first open
dataset of three million English-language fables generated exclusively by
instruction-tuned models no larger than 8B parameters. Each story follows a
six-slot scaffold (character -> trait -> setting -> conflict -> resolution ->
moral), produced through a combinatorial prompt engine that guarantees genre
fidelity while covering a broad thematic space.
A hybrid evaluation pipeline blends (i) a GPT-based critic that scores
grammar, creativity, moral clarity, and template adherence with (ii)
reference-free diversity and readability metrics. Among ten open-weight
candidates, an 8B-parameter Llama-3 variant delivers the best quality-speed
trade-off, producing high-scoring fables on a single consumer GPU (<24 GB VRAM)
at approximately 13.5 cents per 1,000 fables.
We release the dataset, generation code, evaluation scripts, and full
metadata under a permissive license, enabling exact reproducibility and cost
benchmarking. TF1-EN-3M opens avenues for research in instruction following,
narrative intelligence, value alignment, and child-friendly educational AI,
demonstrating that large-scale moral storytelling no longer requires
proprietary giant models.