TF1-EN-3M : Trois millions de fables morales synthétiques pour l'entraînement de petits modèles de langage ouverts
TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models
April 29, 2025
Auteurs: Mihai Nadas, Laura Diosan, Andrei Piscoran, Andreea Tomescu
cs.AI
Résumé
Les histoires morales sont un véhicule éprouvé pour transmettre des valeurs, mais les modèles de traitement du langage naturel (NLP) modernes manquent d'un corpus vaste et structuré qui associe des récits cohérents à des leçons éthiques explicites. Nous comblons cette lacune avec TF1-EN-3M, le premier ensemble de données ouvert de trois millions de fables en langue anglaise générées exclusivement par des modèles ajustés par instruction ne dépassant pas 8 milliards de paramètres. Chaque histoire suit une structure en six étapes (personnage -> trait -> cadre -> conflit -> résolution -> morale), produite par un moteur de prompts combinatoires qui garantit la fidélité au genre tout en couvrant un large espace thématique.
Un pipeline d'évaluation hybride combine (i) un critique basé sur GPT qui évalue la grammaire, la créativité, la clarté morale et l'adhésion au modèle avec (ii) des métriques de diversité et de lisibilité sans référence. Parmi dix candidats à poids ouvert, une variante de Llama-3 à 8 milliards de paramètres offre le meilleur compromis qualité-vitesse, produisant des fables hautement notées sur un seul GPU grand public (<24 Go de VRAM) pour environ 13,5 cents par 1 000 fables.
Nous publions l'ensemble de données, le code de génération, les scripts d'évaluation et les métadonnées complètes sous une licence permissive, permettant une reproductibilité exacte et un benchmarking des coûts. TF1-EN-3M ouvre des perspectives de recherche dans le suivi d'instructions, l'intelligence narrative, l'alignement des valeurs et l'IA éducative adaptée aux enfants, démontrant que la narration morale à grande échelle ne nécessite plus de modèles géants propriétaires.
English
Moral stories are a time-tested vehicle for transmitting values, yet modern
NLP lacks a large, structured corpus that couples coherent narratives with
explicit ethical lessons. We close this gap with TF1-EN-3M, the first open
dataset of three million English-language fables generated exclusively by
instruction-tuned models no larger than 8B parameters. Each story follows a
six-slot scaffold (character -> trait -> setting -> conflict -> resolution ->
moral), produced through a combinatorial prompt engine that guarantees genre
fidelity while covering a broad thematic space.
A hybrid evaluation pipeline blends (i) a GPT-based critic that scores
grammar, creativity, moral clarity, and template adherence with (ii)
reference-free diversity and readability metrics. Among ten open-weight
candidates, an 8B-parameter Llama-3 variant delivers the best quality-speed
trade-off, producing high-scoring fables on a single consumer GPU (<24 GB VRAM)
at approximately 13.5 cents per 1,000 fables.
We release the dataset, generation code, evaluation scripts, and full
metadata under a permissive license, enabling exact reproducibility and cost
benchmarking. TF1-EN-3M opens avenues for research in instruction following,
narrative intelligence, value alignment, and child-friendly educational AI,
demonstrating that large-scale moral storytelling no longer requires
proprietary giant models.Summary
AI-Generated Summary