COIG-Writer: Een hoogwaardige dataset voor creatief schrijven in het Chinees met denkprocessen
COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes
October 16, 2025
Auteurs: Yunwen Li, Shuangshuang Ying, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Tianyu Zheng, Xeron Du, Qiguang Chen, Jiajun Shi, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Stephen Huang, Wanxiang Che, Chenghua Lin, Eli Zhang
cs.AI
Samenvatting
Grote taalmodellen vertonen systematische tekortkomingen in creatief schrijven, met name in niet-Engelse contexten waar trainingsdata schaars is en procesgerichte begeleiding ontbreekt. Wij presenteren COIG-Writer, een nieuw Chinees dataset voor creatief schrijven dat zowel diverse uitvoer als de onderliggende denkprocessen vastlegt door middel van systematische reverse-engineering van hoogwaardige teksten. In tegenstelling tot bestaande datasets die alleen input-output paren bieden, bestaat COIG-Writer uit 1.665 zorgvuldig samengestelde triplets die 51 genres beslaan, elk bestaande uit: (1) een reverse-engineerde prompt, (2) gedetailleerde creatieve redenering die het besluitvormingsproces documenteert, en (3) de uiteindelijke tekst. Door uitgebreide experimenten identificeren we een tweeledig model van creatief schrijven: narratieve logica (verstrekt door procesbegeleiding) en linguïstische expressie (gehandhaafd door algemene data). Onze bevindingen onthullen drie kritische inzichten: (1) Procesbegeleiding is zeer effectief maar vereist stabilisatie met algemene data. Een verhouding van minimaal één creatief voorbeeld op twaalf algemene voorbeelden is nodig om optimale prestaties te bereiken; onder deze drempel degradeert de winstratio geleidelijk (van 62,75% naar 35,78%). (2) Creatieve capaciteiten zijn cultureel gebonden zonder cross-linguale overdracht (een verschil van 89,26 procentpunten tussen Chinese en Engelse prestaties), en (3) lexicale diversiteit correleert omgekeerd met creatieve kwaliteit (het TTR-paradox), wat suggereert dat hoge diversiteit compenserend gedrag voor logische tekortkomingen signaleert. Deze bevindingen bevestigen dat creatieve excellentie voortkomt uit de interactie tussen logische ondersteuning en linguïstische verankering, analoog aan hoe wiskundig redeneren linguïstische competentie in foundation modellen versterkt maar niet kan vervangen.
English
Large language models exhibit systematic deficiencies in creative writing,
particularly in non-English contexts where training data is scarce and lacks
process-level supervision. We present COIG-Writer, a novel Chinese creative
writing dataset that captures both diverse outputs and their underlying thought
processes through systematic reverse-engineering of high-quality texts. Unlike
existing datasets that provide only input-output pairs, COIG-Writer comprises
1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a
reverse-engineered prompt, (2) detailed creative reasoning documenting
decision-making processes, and (3) the final text. Through comprehensive
experiments, we identify a two-component model of creative writing: narrative
logic (provided by process supervision) and linguistic expression (maintained
by general-purpose data). Our findings reveal three critical insights: (1)
Process supervision is highly effective but requires stabilization with general
data. A ratio of at least one creative sample to twelve general samples is
needed to achieve optimal performance; below this threshold, the win rate
progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities
are culturally-bound with no cross-lingual transfer (89.26pp gap between
Chinese and English performance), and (3) lexical diversity inversely
correlates with creative quality (TTR paradox), suggesting high diversity
signals compensatory behavior for logical deficiencies. These findings
establish that creative excellence emerges from the interaction between logical
scaffolding and linguistic grounding, analogous to how mathematical reasoning
enhances but cannot replace linguistic competence in foundation models.