COIG-Writer: Высококачественный набор данных для китайского креативного письма с отражением мыслительных процессов
COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes
October 16, 2025
Авторы: Yunwen Li, Shuangshuang Ying, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Tianyu Zheng, Xeron Du, Qiguang Chen, Jiajun Shi, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Stephen Huang, Wanxiang Che, Chenghua Lin, Eli Zhang
cs.AI
Аннотация
Крупные языковые модели демонстрируют систематические недостатки в творческом письме, особенно в контекстах, отличных от английского, где обучающие данные ограничены и отсутствует контроль на уровне процессов. Мы представляем COIG-Writer — новый набор данных для китайского творческого письма, который охватывает как разнообразные результаты, так и лежащие в их основе мыслительные процессы, благодаря систематическому обратному проектированию высококачественных текстов. В отличие от существующих наборов данных, которые предоставляют только пары "вход-выход", COIG-Writer включает 1665 тщательно отобранных триплетов, охватывающих 51 жанр, каждый из которых содержит: (1) обратно спроектированный промпт, (2) детальное творческое рассуждение, документирующее процесс принятия решений, и (3) итоговый текст. В ходе всесторонних экспериментов мы выявили двухкомпонентную модель творческого письма: нарративная логика (обеспечиваемая контролем процессов) и языковое выражение (поддерживаемое общими данными). Наши результаты раскрывают три ключевых инсайта: (1) Контроль процессов высокоэффективен, но требует стабилизации с помощью общих данных. Для достижения оптимальной производительности необходимо соотношение не менее одного творческого образца к двенадцати общим; ниже этого порога показатель успешности постепенно снижается (с 62,75% до 35,78%). (2) Творческие способности культурно обусловлены и не переносятся между языками (разрыв в 89,26 п.п. между китайским и английским результатами). (3) Лексическое разнообразие обратно коррелирует с творческим качеством (парадокс TTR), что указывает на то, что высокая разнородность сигнализирует о компенсаторном поведении для восполнения логических недостатков. Эти результаты подтверждают, что творческое мастерство возникает благодаря взаимодействию логической структуры и языковой основы, аналогично тому, как математическое рассуждение усиливает, но не может заменить языковую компетентность в базовых моделях.
English
Large language models exhibit systematic deficiencies in creative writing,
particularly in non-English contexts where training data is scarce and lacks
process-level supervision. We present COIG-Writer, a novel Chinese creative
writing dataset that captures both diverse outputs and their underlying thought
processes through systematic reverse-engineering of high-quality texts. Unlike
existing datasets that provide only input-output pairs, COIG-Writer comprises
1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a
reverse-engineered prompt, (2) detailed creative reasoning documenting
decision-making processes, and (3) the final text. Through comprehensive
experiments, we identify a two-component model of creative writing: narrative
logic (provided by process supervision) and linguistic expression (maintained
by general-purpose data). Our findings reveal three critical insights: (1)
Process supervision is highly effective but requires stabilization with general
data. A ratio of at least one creative sample to twelve general samples is
needed to achieve optimal performance; below this threshold, the win rate
progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities
are culturally-bound with no cross-lingual transfer (89.26pp gap between
Chinese and English performance), and (3) lexical diversity inversely
correlates with creative quality (TTR paradox), suggesting high diversity
signals compensatory behavior for logical deficiencies. These findings
establish that creative excellence emerges from the interaction between logical
scaffolding and linguistic grounding, analogous to how mathematical reasoning
enhances but cannot replace linguistic competence in foundation models.