COIG-Writer: Un Dataset di Alta Qualità per la Scrittura Creativa in Cinese con Processi di Pensiero
COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes
October 16, 2025
Autori: Yunwen Li, Shuangshuang Ying, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Tianyu Zheng, Xeron Du, Qiguang Chen, Jiajun Shi, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Stephen Huang, Wanxiang Che, Chenghua Lin, Eli Zhang
cs.AI
Abstract
I grandi modelli linguistici mostrano carenze sistematiche nella scrittura creativa, in particolare in contesti non anglofoni dove i dati di addestramento sono scarsi e mancano di supervisione a livello di processo. Presentiamo COIG-Writer, un nuovo dataset cinese per la scrittura creativa che cattura sia output diversificati sia i processi di pensiero sottostanti attraverso un'ingegneria inversa sistematica di testi di alta qualità. A differenza dei dataset esistenti che forniscono solo coppie input-output, COIG-Writer comprende 1.665 triplette accuratamente curate che coprono 51 generi, ciascuna contenente: (1) un prompt ricostruito tramite ingegneria inversa, (2) un ragionamento creativo dettagliato che documenta i processi decisionali, e (3) il testo finale. Attraverso esperimenti completi, identifichiamo un modello a due componenti della scrittura creativa: logica narrativa (fornita dalla supervisione del processo) ed espressione linguistica (mantenuta da dati di uso generale). Le nostre scoperte rivelano tre intuizioni critiche: (1) La supervisione del processo è altamente efficace ma richiede stabilizzazione con dati generali. Un rapporto di almeno un campione creativo ogni dodici campioni generali è necessario per ottenere prestazioni ottimali; al di sotto di questa soglia, il tasso di successo si degrada progressivamente (dal 62,75% fino al 35,78%). (2) Le capacità creative sono legate alla cultura, senza trasferimento cross-linguistico (un divario di 89,26 punti percentuali tra le prestazioni in cinese e in inglese). (3) La diversità lessicale è inversamente correlata alla qualità creativa (paradosso TTR), suggerendo che un'elevata diversità segnali un comportamento compensatorio per carenze logiche. Questi risultati stabiliscono che l'eccellenza creativa emerge dall'interazione tra un'impalcatura logica e una base linguistica, analogamente a come il ragionamento matematico migliora ma non può sostituire la competenza linguistica nei modelli di base.
English
Large language models exhibit systematic deficiencies in creative writing,
particularly in non-English contexts where training data is scarce and lacks
process-level supervision. We present COIG-Writer, a novel Chinese creative
writing dataset that captures both diverse outputs and their underlying thought
processes through systematic reverse-engineering of high-quality texts. Unlike
existing datasets that provide only input-output pairs, COIG-Writer comprises
1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a
reverse-engineered prompt, (2) detailed creative reasoning documenting
decision-making processes, and (3) the final text. Through comprehensive
experiments, we identify a two-component model of creative writing: narrative
logic (provided by process supervision) and linguistic expression (maintained
by general-purpose data). Our findings reveal three critical insights: (1)
Process supervision is highly effective but requires stabilization with general
data. A ratio of at least one creative sample to twelve general samples is
needed to achieve optimal performance; below this threshold, the win rate
progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities
are culturally-bound with no cross-lingual transfer (89.26pp gap between
Chinese and English performance), and (3) lexical diversity inversely
correlates with creative quality (TTR paradox), suggesting high diversity
signals compensatory behavior for logical deficiencies. These findings
establish that creative excellence emerges from the interaction between logical
scaffolding and linguistic grounding, analogous to how mathematical reasoning
enhances but cannot replace linguistic competence in foundation models.