ChatPaper.aiChatPaper

TF1-EN-3M: 소형 오픈 언어 모델 학습을 위한 300만 개의 합성 도덕 우화

TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models

April 29, 2025
저자: Mihai Nadas, Laura Diosan, Andrei Piscoran, Andreea Tomescu
cs.AI

초록

도덕적 이야기는 가치를 전달하는 데 있어 오랜 시간 검증된 수단이지만, 현대 자연어 처리(NLP) 분야에서는 일관된 서사와 명시적인 윤리적 교훈을 결합한 대규모 구조화된 코퍼스가 부족한 실정입니다. 우리는 이러한 격차를 TF1-EN-3M이라는 최초의 오픈 데이터셋으로 메웠습니다. 이 데이터셋은 8B 파라미터 이하의 인스트럭션 튜닝 모델로만 생성된 300만 개의 영어 우화로 구성되어 있습니다. 각 이야기는 여섯 가지 슬롯(캐릭터 -> 특성 -> 배경 -> 갈등 -> 해결 -> 교훈)으로 구성된 스캐폴드를 따르며, 조합형 프롬프트 엔진을 통해 장르 충실도를 보장하면서도 다양한 주제를 아우르도록 제작되었습니다. 하이브리드 평가 파이프라인은 (i) 문법, 창의성, 도덕적 명확성, 템플릿 준수를 평가하는 GPT 기반 비평가와 (ii) 참조 없이 다양성과 가독성을 측정하는 지표를 결합합니다. 열 가지 오픈 웨이트 후보 모델 중에서 8B 파라미터 Llama-3 변형이 최적의 품질-속도 균형을 보여주며, 단일 소비자 GPU(<24GB VRAM)에서 약 13.5센트에 1,000개의 우화를 생성합니다. 우리는 데이터셋, 생성 코드, 평가 스크립트, 그리고 전체 메타데이터를 허가형 라이선스 하에 공개하여 정확한 재현성과 비용 벤치마킹을 가능하게 합니다. TF1-EN-3M은 인스트럭션 수행, 서사 지능, 가치 정렬, 그리고 아동 친화적인 교육용 AI 연구에 새로운 길을 열어주며, 대규모 도덕적 스토리텔링이 더 이상 독점적인 초대형 모델을 필요로 하지 않음을 입증합니다.
English
Moral stories are a time-tested vehicle for transmitting values, yet modern NLP lacks a large, structured corpus that couples coherent narratives with explicit ethical lessons. We close this gap with TF1-EN-3M, the first open dataset of three million English-language fables generated exclusively by instruction-tuned models no larger than 8B parameters. Each story follows a six-slot scaffold (character -> trait -> setting -> conflict -> resolution -> moral), produced through a combinatorial prompt engine that guarantees genre fidelity while covering a broad thematic space. A hybrid evaluation pipeline blends (i) a GPT-based critic that scores grammar, creativity, moral clarity, and template adherence with (ii) reference-free diversity and readability metrics. Among ten open-weight candidates, an 8B-parameter Llama-3 variant delivers the best quality-speed trade-off, producing high-scoring fables on a single consumer GPU (<24 GB VRAM) at approximately 13.5 cents per 1,000 fables. We release the dataset, generation code, evaluation scripts, and full metadata under a permissive license, enabling exact reproducibility and cost benchmarking. TF1-EN-3M opens avenues for research in instruction following, narrative intelligence, value alignment, and child-friendly educational AI, demonstrating that large-scale moral storytelling no longer requires proprietary giant models.

Summary

AI-Generated Summary

PDF52May 4, 2025