ChatPaper.aiChatPaper

COIG-Writer : Un ensemble de données de haute qualité pour l'écriture créative en chinois avec processus de pensée

COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes

October 16, 2025
papers.authors: Yunwen Li, Shuangshuang Ying, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Tianyu Zheng, Xeron Du, Qiguang Chen, Jiajun Shi, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Stephen Huang, Wanxiang Che, Chenghua Lin, Eli Zhang
cs.AI

papers.abstract

Les grands modèles de langage présentent des lacunes systématiques en matière d'écriture créative, en particulier dans des contextes non anglophones où les données d'entraînement sont rares et manquent de supervision au niveau des processus. Nous présentons COIG-Writer, un nouveau jeu de données chinois pour l'écriture créative qui capture à la fois des productions diversifiées et leurs processus de pensée sous-jacents grâce à une ingénierie inverse systématique de textes de haute qualité. Contrairement aux jeux de données existants qui ne fournissent que des paires entrée-sortie, COIG-Writer comprend 1 665 triplets soigneusement sélectionnés couvrant 51 genres, chacun contenant : (1) une consigne reconstruite par ingénierie inverse, (2) un raisonnement créatif détaillé documentant les processus de prise de décision, et (3) le texte final. À travers des expériences approfondies, nous identifions un modèle à deux composantes de l'écriture créative : la logique narrative (fournie par la supervision des processus) et l'expression linguistique (maintenue par des données généralistes). Nos résultats révèlent trois insights critiques : (1) La supervision des processus est très efficace mais nécessite une stabilisation avec des données générales. Un ratio d'au moins un échantillon créatif pour douze échantillons généraux est nécessaire pour atteindre une performance optimale ; en dessous de ce seuil, le taux de réussite se dégrade progressivement (de 62,75 % à 35,78 %). (2) Les capacités créatives sont culturellement liées, sans transfert translinguistique (un écart de 89,26 points de pourcentage entre les performances en chinois et en anglais). (3) La diversité lexicale est inversement corrélée à la qualité créative (paradoxe TTR), suggérant qu'une grande diversité signale un comportement compensatoire pour des lacunes logiques. Ces résultats établissent que l'excellence créative émerge de l'interaction entre un échafaudage logique et un ancrage linguistique, de manière analogue à la façon dont le raisonnement mathématique améliore mais ne peut remplacer la compétence linguistique dans les modèles de base.
English
Large language models exhibit systematic deficiencies in creative writing, particularly in non-English contexts where training data is scarce and lacks process-level supervision. We present COIG-Writer, a novel Chinese creative writing dataset that captures both diverse outputs and their underlying thought processes through systematic reverse-engineering of high-quality texts. Unlike existing datasets that provide only input-output pairs, COIG-Writer comprises 1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a reverse-engineered prompt, (2) detailed creative reasoning documenting decision-making processes, and (3) the final text. Through comprehensive experiments, we identify a two-component model of creative writing: narrative logic (provided by process supervision) and linguistic expression (maintained by general-purpose data). Our findings reveal three critical insights: (1) Process supervision is highly effective but requires stabilization with general data. A ratio of at least one creative sample to twelve general samples is needed to achieve optimal performance; below this threshold, the win rate progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities are culturally-bound with no cross-lingual transfer (89.26pp gap between Chinese and English performance), and (3) lexical diversity inversely correlates with creative quality (TTR paradox), suggesting high diversity signals compensatory behavior for logical deficiencies. These findings establish that creative excellence emerges from the interaction between logical scaffolding and linguistic grounding, analogous to how mathematical reasoning enhances but cannot replace linguistic competence in foundation models.
PDF132December 21, 2025