COIG-Writer: Высококачественный набор данных для китайского креативного письма с отражением мыслительных процессов

Аннотация

Крупные языковые модели демонстрируют систематические недостатки в творческом письме, особенно в контекстах, отличных от английского, где обучающие данные ограничены и отсутствует контроль на уровне процессов. Мы представляем COIG-Writer — новый набор данных для китайского творческого письма, который охватывает как разнообразные результаты, так и лежащие в их основе мыслительные процессы, благодаря систематическому обратному проектированию высококачественных текстов. В отличие от существующих наборов данных, которые предоставляют только пары "вход-выход", COIG-Writer включает 1665 тщательно отобранных триплетов, охватывающих 51 жанр, каждый из которых содержит: (1) обратно спроектированный промпт, (2) детальное творческое рассуждение, документирующее процесс принятия решений, и (3) итоговый текст. В ходе всесторонних экспериментов мы выявили двухкомпонентную модель творческого письма: нарративная логика (обеспечиваемая контролем процессов) и языковое выражение (поддерживаемое общими данными). Наши результаты раскрывают три ключевых инсайта: (1) Контроль процессов высокоэффективен, но требует стабилизации с помощью общих данных. Для достижения оптимальной производительности необходимо соотношение не менее одного творческого образца к двенадцати общим; ниже этого порога показатель успешности постепенно снижается (с 62,75% до 35,78%). (2) Творческие способности культурно обусловлены и не переносятся между языками (разрыв в 89,26 п.п. между китайским и английским результатами). (3) Лексическое разнообразие обратно коррелирует с творческим качеством (парадокс TTR), что указывает на то, что высокая разнородность сигнализирует о компенсаторном поведении для восполнения логических недостатков. Эти результаты подтверждают, что творческое мастерство возникает благодаря взаимодействию логической структуры и языковой основы, аналогично тому, как математическое рассуждение усиливает, но не может заменить языковую компетентность в базовых моделях.

English

Large language models exhibit systematic deficiencies in creative writing, particularly in non-English contexts where training data is scarce and lacks process-level supervision. We present COIG-Writer, a novel Chinese creative writing dataset that captures both diverse outputs and their underlying thought processes through systematic reverse-engineering of high-quality texts. Unlike existing datasets that provide only input-output pairs, COIG-Writer comprises 1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a reverse-engineered prompt, (2) detailed creative reasoning documenting decision-making processes, and (3) the final text. Through comprehensive experiments, we identify a two-component model of creative writing: narrative logic (provided by process supervision) and linguistic expression (maintained by general-purpose data). Our findings reveal three critical insights: (1) Process supervision is highly effective but requires stabilization with general data. A ratio of at least one creative sample to twelve general samples is needed to achieve optimal performance; below this threshold, the win rate progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities are culturally-bound with no cross-lingual transfer (89.26pp gap between Chinese and English performance), and (3) lexical diversity inversely correlates with creative quality (TTR paradox), suggesting high diversity signals compensatory behavior for logical deficiencies. These findings establish that creative excellence emerges from the interaction between logical scaffolding and linguistic grounding, analogous to how mathematical reasoning enhances but cannot replace linguistic competence in foundation models.

COIG-Writer: Высококачественный набор данных для китайского креативного письма с отражением мыслительных процессов

COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes

Аннотация

Support