COIG-Writer: Un Dataset di Alta Qualità per la Scrittura Creativa in Cinese con Processi di Pensiero

Abstract

I grandi modelli linguistici mostrano carenze sistematiche nella scrittura creativa, in particolare in contesti non anglofoni dove i dati di addestramento sono scarsi e mancano di supervisione a livello di processo. Presentiamo COIG-Writer, un nuovo dataset cinese per la scrittura creativa che cattura sia output diversificati sia i processi di pensiero sottostanti attraverso un'ingegneria inversa sistematica di testi di alta qualità. A differenza dei dataset esistenti che forniscono solo coppie input-output, COIG-Writer comprende 1.665 triplette accuratamente curate che coprono 51 generi, ciascuna contenente: (1) un prompt ricostruito tramite ingegneria inversa, (2) un ragionamento creativo dettagliato che documenta i processi decisionali, e (3) il testo finale. Attraverso esperimenti completi, identifichiamo un modello a due componenti della scrittura creativa: logica narrativa (fornita dalla supervisione del processo) ed espressione linguistica (mantenuta da dati di uso generale). Le nostre scoperte rivelano tre intuizioni critiche: (1) La supervisione del processo è altamente efficace ma richiede stabilizzazione con dati generali. Un rapporto di almeno un campione creativo ogni dodici campioni generali è necessario per ottenere prestazioni ottimali; al di sotto di questa soglia, il tasso di successo si degrada progressivamente (dal 62,75% fino al 35,78%). (2) Le capacità creative sono legate alla cultura, senza trasferimento cross-linguistico (un divario di 89,26 punti percentuali tra le prestazioni in cinese e in inglese). (3) La diversità lessicale è inversamente correlata alla qualità creativa (paradosso TTR), suggerendo che un'elevata diversità segnali un comportamento compensatorio per carenze logiche. Questi risultati stabiliscono che l'eccellenza creativa emerge dall'interazione tra un'impalcatura logica e una base linguistica, analogamente a come il ragionamento matematico migliora ma non può sostituire la competenza linguistica nei modelli di base.

English

Large language models exhibit systematic deficiencies in creative writing, particularly in non-English contexts where training data is scarce and lacks process-level supervision. We present COIG-Writer, a novel Chinese creative writing dataset that captures both diverse outputs and their underlying thought processes through systematic reverse-engineering of high-quality texts. Unlike existing datasets that provide only input-output pairs, COIG-Writer comprises 1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a reverse-engineered prompt, (2) detailed creative reasoning documenting decision-making processes, and (3) the final text. Through comprehensive experiments, we identify a two-component model of creative writing: narrative logic (provided by process supervision) and linguistic expression (maintained by general-purpose data). Our findings reveal three critical insights: (1) Process supervision is highly effective but requires stabilization with general data. A ratio of at least one creative sample to twelve general samples is needed to achieve optimal performance; below this threshold, the win rate progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities are culturally-bound with no cross-lingual transfer (89.26pp gap between Chinese and English performance), and (3) lexical diversity inversely correlates with creative quality (TTR paradox), suggesting high diversity signals compensatory behavior for logical deficiencies. These findings establish that creative excellence emerges from the interaction between logical scaffolding and linguistic grounding, analogous to how mathematical reasoning enhances but cannot replace linguistic competence in foundation models.

COIG-Writer: Un Dataset di Alta Qualità per la Scrittura Creativa in Cinese con Processi di Pensiero

COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes

Abstract

Support