COIG-Writer: Ein hochwertiger Datensatz für kreatives Schreiben auf Chinesisch mit Denkprozessen

papers.abstract

Große Sprachmodelle zeigen systematische Defizite im kreativen Schreiben, insbesondere in nicht-englischen Kontexten, in denen Trainingsdaten knapp sind und prozessbezogene Aufsicht fehlt. Wir stellen COIG-Writer vor, einen neuartigen Datensatz für kreatives Schreiben auf Chinesisch, der sowohl vielfältige Outputs als auch deren zugrunde liegende Denkprozesse durch systematische Reverse-Engineering von hochwertigen Texten erfasst. Im Gegensatz zu bestehenden Datensätzen, die lediglich Eingabe-Ausgabe-Paare bereitstellen, umfasst COIG-Writer 1.665 sorgfältig kuratierte Tripletts, die 51 Genres abdecken und jeweils enthalten: (1) einen reverse-engineerten Prompt, (2) detaillierte kreative Argumentation, die die Entscheidungsprozesse dokumentiert, und (3) den finalen Text. Durch umfassende Experimente identifizieren wir ein zweikomponentiges Modell des kreativen Schreibens: narrative Logik (bereitgestellt durch Prozessaufsicht) und sprachlicher Ausdruck (aufrechterhalten durch allgemeine Daten). Unsere Ergebnisse offenbaren drei kritische Erkenntnisse: (1) Prozessaufsicht ist äußerst effektiv, erfordert jedoch eine Stabilisierung durch allgemeine Daten. Ein Verhältnis von mindestens einer kreativen Probe zu zwölf allgemeinen Proben ist erforderlich, um optimale Leistung zu erzielen; unterhalb dieses Schwellenwerts verschlechtert sich die Erfolgsrate progressiv (von 62,75 % auf 35,78 %). (2) Kreative Fähigkeiten sind kulturell gebunden und zeigen keinen sprachübergreifenden Transfer (eine Lücke von 89,26 Prozentpunkten zwischen der Leistung auf Chinesisch und Englisch). (3) Lexikalische Diversität korreliert invers mit der kreativen Qualität (TTR-Paradoxon), was darauf hindeutet, dass hohe Diversität ein kompensatorisches Verhalten für logische Defizite signalisiert. Diese Erkenntnisse belegen, dass kreative Exzellenz aus der Interaktion zwischen logischem Gerüst und sprachlicher Verankerung entsteht, analog dazu, wie mathematisches Denken die sprachliche Kompetenz in Basismodellen verbessert, aber nicht ersetzen kann.

English

Large language models exhibit systematic deficiencies in creative writing, particularly in non-English contexts where training data is scarce and lacks process-level supervision. We present COIG-Writer, a novel Chinese creative writing dataset that captures both diverse outputs and their underlying thought processes through systematic reverse-engineering of high-quality texts. Unlike existing datasets that provide only input-output pairs, COIG-Writer comprises 1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a reverse-engineered prompt, (2) detailed creative reasoning documenting decision-making processes, and (3) the final text. Through comprehensive experiments, we identify a two-component model of creative writing: narrative logic (provided by process supervision) and linguistic expression (maintained by general-purpose data). Our findings reveal three critical insights: (1) Process supervision is highly effective but requires stabilization with general data. A ratio of at least one creative sample to twelve general samples is needed to achieve optimal performance; below this threshold, the win rate progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities are culturally-bound with no cross-lingual transfer (89.26pp gap between Chinese and English performance), and (3) lexical diversity inversely correlates with creative quality (TTR paradox), suggesting high diversity signals compensatory behavior for logical deficiencies. These findings establish that creative excellence emerges from the interaction between logical scaffolding and linguistic grounding, analogous to how mathematical reasoning enhances but cannot replace linguistic competence in foundation models.

COIG-Writer: Ein hochwertiger Datensatz für kreatives Schreiben auf Chinesisch mit Denkprozessen

COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes

papers.abstract

Support