COIG-Writer: 사고 과정을 포함한 중국어 창의적 글쓰기를 위한 고품질 데이터셋
COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes
October 16, 2025
저자: Yunwen Li, Shuangshuang Ying, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Tianyu Zheng, Xeron Du, Qiguang Chen, Jiajun Shi, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Stephen Huang, Wanxiang Che, Chenghua Lin, Eli Zhang
cs.AI
초록
대형 언어 모델은 창의적 글쓰기에서 체계적인 결함을 보이며, 특히 훈련 데이터가 부족하고 프로세스 수준의 감독이 없는 비영어권 환경에서 이러한 문제가 두드러진다. 본 연구에서는 고품질 텍스트를 체계적으로 역공학하여 다양한 출력물과 그에 따른 사고 과정을 포착한 새로운 중국어 창의적 글쓰기 데이터셋인 COIG-Writer를 제안한다. 기존의 입력-출력 쌍만 제공하는 데이터셋과 달리, COIG-Writer는 51개 장르에 걸쳐 1,665개의 세심하게 선별된 삼중항으로 구성되며, 각 삼중항은 (1) 역공학된 프롬프트, (2) 의사결정 과정을 상세히 기록한 창의적 추론, (3) 최종 텍스트를 포함한다. 포괄적인 실험을 통해 창의적 글쓰기의 두 가지 구성 요소를 확인하였다: 서사적 논리(프로세스 감독에 의해 제공됨)와 언어적 표현(일반 목적 데이터에 의해 유지됨). 연구 결과는 세 가지 중요한 통찰을 제공한다: (1) 프로세스 감독은 매우 효과적이지만 일반 데이터와의 안정화가 필요하다. 최적의 성능을 달성하기 위해서는 최소 하나의 창의적 샘플에 대해 열두 개의 일반 샘플이 필요하며, 이 임계값 미만에서는 승률이 점진적으로 감소한다(62.75%에서 35.78%로). (2) 창의적 능력은 문화에 종속되어 있으며 언어 간 전이가 없다(중국어와 영어 성능 간 89.26pp 차이). (3) 어휘 다양성은 창의적 품질과 반비례한다(TTR 역설), 이는 높은 다양성이 논리적 결함에 대한 보상 행동을 나타낸다는 것을 시사한다. 이러한 발견들은 창의적 탁월성이 논리적 구조와 언어적 기반의 상호작용에서 비롯됨을 입증하며, 이는 기초 모델에서 수학적 추론이 언어 능력을 강화하지만 대체할 수 없는 것과 유사하다.
English
Large language models exhibit systematic deficiencies in creative writing,
particularly in non-English contexts where training data is scarce and lacks
process-level supervision. We present COIG-Writer, a novel Chinese creative
writing dataset that captures both diverse outputs and their underlying thought
processes through systematic reverse-engineering of high-quality texts. Unlike
existing datasets that provide only input-output pairs, COIG-Writer comprises
1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a
reverse-engineered prompt, (2) detailed creative reasoning documenting
decision-making processes, and (3) the final text. Through comprehensive
experiments, we identify a two-component model of creative writing: narrative
logic (provided by process supervision) and linguistic expression (maintained
by general-purpose data). Our findings reveal three critical insights: (1)
Process supervision is highly effective but requires stabilization with general
data. A ratio of at least one creative sample to twelve general samples is
needed to achieve optimal performance; below this threshold, the win rate
progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities
are culturally-bound with no cross-lingual transfer (89.26pp gap between
Chinese and English performance), and (3) lexical diversity inversely
correlates with creative quality (TTR paradox), suggesting high diversity
signals compensatory behavior for logical deficiencies. These findings
establish that creative excellence emerges from the interaction between logical
scaffolding and linguistic grounding, analogous to how mathematical reasoning
enhances but cannot replace linguistic competence in foundation models.