COIG-Writer: 思考プロセスを伴う中国語創作のための高品質データセット
COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes
October 16, 2025
著者: Yunwen Li, Shuangshuang Ying, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Tianyu Zheng, Xeron Du, Qiguang Chen, Jiajun Shi, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Stephen Huang, Wanxiang Che, Chenghua Lin, Eli Zhang
cs.AI
要旨
大規模言語モデルは、特に非英語圏において訓練データが不足し、プロセスレベルの監視が欠如している状況下で、創造的な文章作成において体系的な欠陥を示す。本論文では、高品質なテキストを体系的にリバースエンジニアリングすることで、多様な出力とその背後にある思考プロセスを捉えた新しい中国語の創造的文章作成データセットであるCOIG-Writerを提案する。既存のデータセットが入力と出力のペアのみを提供するのに対し、COIG-Writerは51のジャンルにわたる1,665の厳選されたトリプレットで構成され、それぞれに以下が含まれる:(1) リバースエンジニアリングされたプロンプト、(2) 意思決定プロセスを記録した詳細な創造的推論、(3) 最終的なテキスト。包括的な実験を通じて、創造的文章作成の二要素モデルを特定した:物語の論理(プロセス監視によって提供される)と言語表現(汎用データによって維持される)。我々の研究結果は以下の三つの重要な知見を明らかにする:(1) プロセス監視は非常に効果的であるが、汎用データによる安定化が必要である。最適な性能を達成するためには、少なくとも1つの創造的サンプルに対して12の汎用サンプルの比率が必要であり、この閾値を下回ると勝率が徐々に低下する(62.75%から35.78%へ)。(2) 創造的能力は文化的に制約され、言語間での転移はない(中国語と英語の性能間に89.26ppのギャップがある)。(3) 語彙の多様性は創造的品質と逆相関する(TTRのパラドックス)、これは高い多様性が論理的欠陥に対する補償行動を示唆していることを意味する。これらの知見は、創造的卓越性が論理的枠組みと言語的基盤の相互作用から生まれることを確立し、基礎モデルにおいて数学的推論が言語能力を強化するが置き換えることはできないのと同様である。
English
Large language models exhibit systematic deficiencies in creative writing,
particularly in non-English contexts where training data is scarce and lacks
process-level supervision. We present COIG-Writer, a novel Chinese creative
writing dataset that captures both diverse outputs and their underlying thought
processes through systematic reverse-engineering of high-quality texts. Unlike
existing datasets that provide only input-output pairs, COIG-Writer comprises
1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a
reverse-engineered prompt, (2) detailed creative reasoning documenting
decision-making processes, and (3) the final text. Through comprehensive
experiments, we identify a two-component model of creative writing: narrative
logic (provided by process supervision) and linguistic expression (maintained
by general-purpose data). Our findings reveal three critical insights: (1)
Process supervision is highly effective but requires stabilization with general
data. A ratio of at least one creative sample to twelve general samples is
needed to achieve optimal performance; below this threshold, the win rate
progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities
are culturally-bound with no cross-lingual transfer (89.26pp gap between
Chinese and English performance), and (3) lexical diversity inversely
correlates with creative quality (TTR paradox), suggesting high diversity
signals compensatory behavior for logical deficiencies. These findings
establish that creative excellence emerges from the interaction between logical
scaffolding and linguistic grounding, analogous to how mathematical reasoning
enhances but cannot replace linguistic competence in foundation models.