ChatPaper.aiChatPaper

TF1-EN-3M: Três Milhões de Fábulas Morais Sintéticas para Treinamento de Modelos de Linguagem Pequenos e Abertos

TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models

April 29, 2025
Autores: Mihai Nadas, Laura Diosan, Andrei Piscoran, Andreea Tomescu
cs.AI

Resumo

Histórias morais são um veículo consagrado pelo tempo para transmitir valores, mas a PLN moderna carece de um grande corpus estruturado que associe narrativas coerentes a lições éticas explícitas. Nós preenchemos essa lacuna com o TF1-EN-3M, o primeiro conjunto de dados aberto de três milhões de fábulas em inglês geradas exclusivamente por modelos ajustados por instrução com no máximo 8 bilhões de parâmetros. Cada história segue um arcabouço de seis elementos (personagem -> traço -> cenário -> conflito -> resolução -> moral), produzido por um mecanismo de prompts combinatórios que garante fidelidade ao gênero enquanto abrange um amplo espaço temático. Um pipeline de avaliação híbrido combina (i) um crítico baseado em GPT que pontua gramática, criatividade, clareza moral e aderência ao modelo com (ii) métricas de diversidade e legibilidade sem referência. Entre dez candidatos de pesos abertos, uma variante do Llama-3 com 8 bilhões de parâmetros oferece o melhor equilíbrio entre qualidade e velocidade, produzindo fábulas de alta pontuação em uma única GPU de consumo (<24 GB de VRAM) a aproximadamente 13,5 centavos por 1.000 fábulas. Disponibilizamos o conjunto de dados, código de geração, scripts de avaliação e metadados completos sob uma licença permissiva, permitindo reprodutibilidade exata e benchmarking de custos. O TF1-EN-3M abre caminhos para pesquisas em seguimento de instruções, inteligência narrativa, alinhamento de valores e IA educacional amigável para crianças, demonstrando que a narrativa moral em larga escala não requer mais modelos gigantes proprietários.
English
Moral stories are a time-tested vehicle for transmitting values, yet modern NLP lacks a large, structured corpus that couples coherent narratives with explicit ethical lessons. We close this gap with TF1-EN-3M, the first open dataset of three million English-language fables generated exclusively by instruction-tuned models no larger than 8B parameters. Each story follows a six-slot scaffold (character -> trait -> setting -> conflict -> resolution -> moral), produced through a combinatorial prompt engine that guarantees genre fidelity while covering a broad thematic space. A hybrid evaluation pipeline blends (i) a GPT-based critic that scores grammar, creativity, moral clarity, and template adherence with (ii) reference-free diversity and readability metrics. Among ten open-weight candidates, an 8B-parameter Llama-3 variant delivers the best quality-speed trade-off, producing high-scoring fables on a single consumer GPU (<24 GB VRAM) at approximately 13.5 cents per 1,000 fables. We release the dataset, generation code, evaluation scripts, and full metadata under a permissive license, enabling exact reproducibility and cost benchmarking. TF1-EN-3M opens avenues for research in instruction following, narrative intelligence, value alignment, and child-friendly educational AI, demonstrating that large-scale moral storytelling no longer requires proprietary giant models.
PDF142May 4, 2025