TF1-EN-3M : Trois millions de fables morales synthétiques pour l'entraînement de petits modèles de langage ouverts

papers.abstract

Les histoires morales sont un véhicule éprouvé pour transmettre des valeurs, mais les modèles de traitement du langage naturel (NLP) modernes manquent d'un corpus vaste et structuré qui associe des récits cohérents à des leçons éthiques explicites. Nous comblons cette lacune avec TF1-EN-3M, le premier ensemble de données ouvert de trois millions de fables en langue anglaise générées exclusivement par des modèles ajustés par instruction ne dépassant pas 8 milliards de paramètres. Chaque histoire suit une structure en six étapes (personnage -> trait -> cadre -> conflit -> résolution -> morale), produite par un moteur de prompts combinatoires qui garantit la fidélité au genre tout en couvrant un large espace thématique. Un pipeline d'évaluation hybride combine (i) un critique basé sur GPT qui évalue la grammaire, la créativité, la clarté morale et l'adhésion au modèle avec (ii) des métriques de diversité et de lisibilité sans référence. Parmi dix candidats à poids ouvert, une variante de Llama-3 à 8 milliards de paramètres offre le meilleur compromis qualité-vitesse, produisant des fables hautement notées sur un seul GPU grand public (<24 Go de VRAM) pour environ 13,5 cents par 1 000 fables. Nous publions l'ensemble de données, le code de génération, les scripts d'évaluation et les métadonnées complètes sous une licence permissive, permettant une reproductibilité exacte et un benchmarking des coûts. TF1-EN-3M ouvre des perspectives de recherche dans le suivi d'instructions, l'intelligence narrative, l'alignement des valeurs et l'IA éducative adaptée aux enfants, démontrant que la narration morale à grande échelle ne nécessite plus de modèles géants propriétaires.

English

Moral stories are a time-tested vehicle for transmitting values, yet modern NLP lacks a large, structured corpus that couples coherent narratives with explicit ethical lessons. We close this gap with TF1-EN-3M, the first open dataset of three million English-language fables generated exclusively by instruction-tuned models no larger than 8B parameters. Each story follows a six-slot scaffold (character -> trait -> setting -> conflict -> resolution -> moral), produced through a combinatorial prompt engine that guarantees genre fidelity while covering a broad thematic space. A hybrid evaluation pipeline blends (i) a GPT-based critic that scores grammar, creativity, moral clarity, and template adherence with (ii) reference-free diversity and readability metrics. Among ten open-weight candidates, an 8B-parameter Llama-3 variant delivers the best quality-speed trade-off, producing high-scoring fables on a single consumer GPU (<24 GB VRAM) at approximately 13.5 cents per 1,000 fables. We release the dataset, generation code, evaluation scripts, and full metadata under a permissive license, enabling exact reproducibility and cost benchmarking. TF1-EN-3M opens avenues for research in instruction following, narrative intelligence, value alignment, and child-friendly educational AI, demonstrating that large-scale moral storytelling no longer requires proprietary giant models.

TF1-EN-3M : Trois millions de fables morales synthétiques pour l'entraînement de petits modèles de langage ouverts

TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models

papers.abstract

Support