TF1-EN-3M: Tres Millones de Fábulas Morales Sintéticas para Entrenar Modelos de Lenguaje Pequeños y Abiertos
TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models
April 29, 2025
Autores: Mihai Nadas, Laura Diosan, Andrei Piscoran, Andreea Tomescu
cs.AI
Resumen
Las historias morales son un vehículo probado en el tiempo para transmitir valores, sin embargo, el PLN moderno carece de un corpus grande y estructurado que combine narrativas coherentes con lecciones éticas explícitas. Cerramos esta brecha con TF1-EN-3M, el primer conjunto de datos abierto de tres millones de fábulas en inglés generadas exclusivamente por modelos ajustados por instrucciones con no más de 8B parámetros. Cada historia sigue un andamiaje de seis elementos (personaje -> rasgo -> entorno -> conflicto -> resolución -> moraleja), producido a través de un motor de prompts combinatorio que garantiza fidelidad al género mientras cubre un amplio espacio temático.
Una canalización de evaluación híbrida combina (i) un crítico basado en GPT que puntúa gramática, creatividad, claridad moral y adherencia a la plantilla con (ii) métricas de diversidad y legibilidad sin referencia. Entre diez candidatos de peso abierto, una variante de Llama-3 con 8B parámetros ofrece el mejor equilibrio entre calidad y velocidad, produciendo fábulas de alta puntuación en una sola GPU de consumo (<24 GB VRAM) a aproximadamente 13.5 centavos por 1,000 fábulas.
Publicamos el conjunto de datos, el código de generación, los scripts de evaluación y los metadatos completos bajo una licencia permisiva, permitiendo una reproducibilidad exacta y una evaluación comparativa de costos. TF1-EN-3M abre vías para la investigación en seguimiento de instrucciones, inteligencia narrativa, alineación de valores y IA educativa amigable para niños, demostrando que la narración moral a gran escala ya no requiere modelos gigantes propietarios.
English
Moral stories are a time-tested vehicle for transmitting values, yet modern
NLP lacks a large, structured corpus that couples coherent narratives with
explicit ethical lessons. We close this gap with TF1-EN-3M, the first open
dataset of three million English-language fables generated exclusively by
instruction-tuned models no larger than 8B parameters. Each story follows a
six-slot scaffold (character -> trait -> setting -> conflict -> resolution ->
moral), produced through a combinatorial prompt engine that guarantees genre
fidelity while covering a broad thematic space.
A hybrid evaluation pipeline blends (i) a GPT-based critic that scores
grammar, creativity, moral clarity, and template adherence with (ii)
reference-free diversity and readability metrics. Among ten open-weight
candidates, an 8B-parameter Llama-3 variant delivers the best quality-speed
trade-off, producing high-scoring fables on a single consumer GPU (<24 GB VRAM)
at approximately 13.5 cents per 1,000 fables.
We release the dataset, generation code, evaluation scripts, and full
metadata under a permissive license, enabling exact reproducibility and cost
benchmarking. TF1-EN-3M opens avenues for research in instruction following,
narrative intelligence, value alignment, and child-friendly educational AI,
demonstrating that large-scale moral storytelling no longer requires
proprietary giant models.Summary
AI-Generated Summary