ChatPaper.aiChatPaper

COIG-Writer: Een hoogwaardige dataset voor creatief schrijven in het Chinees met denkprocessen

COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes

October 16, 2025
Auteurs: Yunwen Li, Shuangshuang Ying, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Tianyu Zheng, Xeron Du, Qiguang Chen, Jiajun Shi, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Stephen Huang, Wanxiang Che, Chenghua Lin, Eli Zhang
cs.AI

Samenvatting

Grote taalmodellen vertonen systematische tekortkomingen in creatief schrijven, met name in niet-Engelse contexten waar trainingsdata schaars is en procesgerichte begeleiding ontbreekt. Wij presenteren COIG-Writer, een nieuw Chinees dataset voor creatief schrijven dat zowel diverse uitvoer als de onderliggende denkprocessen vastlegt door middel van systematische reverse-engineering van hoogwaardige teksten. In tegenstelling tot bestaande datasets die alleen input-output paren bieden, bestaat COIG-Writer uit 1.665 zorgvuldig samengestelde triplets die 51 genres beslaan, elk bestaande uit: (1) een reverse-engineerde prompt, (2) gedetailleerde creatieve redenering die het besluitvormingsproces documenteert, en (3) de uiteindelijke tekst. Door uitgebreide experimenten identificeren we een tweeledig model van creatief schrijven: narratieve logica (verstrekt door procesbegeleiding) en linguïstische expressie (gehandhaafd door algemene data). Onze bevindingen onthullen drie kritische inzichten: (1) Procesbegeleiding is zeer effectief maar vereist stabilisatie met algemene data. Een verhouding van minimaal één creatief voorbeeld op twaalf algemene voorbeelden is nodig om optimale prestaties te bereiken; onder deze drempel degradeert de winstratio geleidelijk (van 62,75% naar 35,78%). (2) Creatieve capaciteiten zijn cultureel gebonden zonder cross-linguale overdracht (een verschil van 89,26 procentpunten tussen Chinese en Engelse prestaties), en (3) lexicale diversiteit correleert omgekeerd met creatieve kwaliteit (het TTR-paradox), wat suggereert dat hoge diversiteit compenserend gedrag voor logische tekortkomingen signaleert. Deze bevindingen bevestigen dat creatieve excellentie voortkomt uit de interactie tussen logische ondersteuning en linguïstische verankering, analoog aan hoe wiskundig redeneren linguïstische competentie in foundation modellen versterkt maar niet kan vervangen.
English
Large language models exhibit systematic deficiencies in creative writing, particularly in non-English contexts where training data is scarce and lacks process-level supervision. We present COIG-Writer, a novel Chinese creative writing dataset that captures both diverse outputs and their underlying thought processes through systematic reverse-engineering of high-quality texts. Unlike existing datasets that provide only input-output pairs, COIG-Writer comprises 1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a reverse-engineered prompt, (2) detailed creative reasoning documenting decision-making processes, and (3) the final text. Through comprehensive experiments, we identify a two-component model of creative writing: narrative logic (provided by process supervision) and linguistic expression (maintained by general-purpose data). Our findings reveal three critical insights: (1) Process supervision is highly effective but requires stabilization with general data. A ratio of at least one creative sample to twelve general samples is needed to achieve optimal performance; below this threshold, the win rate progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities are culturally-bound with no cross-lingual transfer (89.26pp gap between Chinese and English performance), and (3) lexical diversity inversely correlates with creative quality (TTR paradox), suggesting high diversity signals compensatory behavior for logical deficiencies. These findings establish that creative excellence emerges from the interaction between logical scaffolding and linguistic grounding, analogous to how mathematical reasoning enhances but cannot replace linguistic competence in foundation models.
PDF122October 17, 2025