COIG-Writer: Um Conjunto de Dados de Alta Qualidade para Escrita Criativa em Chinês com Processos de Pensamento
COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes
October 16, 2025
Autores: Yunwen Li, Shuangshuang Ying, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Tianyu Zheng, Xeron Du, Qiguang Chen, Jiajun Shi, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Stephen Huang, Wanxiang Che, Chenghua Lin, Eli Zhang
cs.AI
Resumo
Grandes modelos de linguagem exibem deficiências sistemáticas na escrita criativa,
particularmente em contextos não anglófonos onde os dados de treinamento são escassos e carecem
de supervisão em nível de processo. Apresentamos o COIG-Writer, um novo conjunto de dados para escrita criativa em chinês que captura tanto saídas diversas quanto seus processos de pensamento subjacentes por meio de engenharia reversa sistemática de textos de alta qualidade. Diferentemente de conjuntos de dados existentes que fornecem apenas pares de entrada-saída, o COIG-Writer compreende 1.665 triplas meticulosamente curadas abrangendo 51 gêneros, cada uma contendo: (1) um prompt de engenharia reversa, (2) raciocínio criativo detalhado documentando os processos de tomada de decisão, e (3) o texto final. Por meio de experimentos abrangentes, identificamos um modelo de escrita criativa de dois componentes: lógica narrativa (fornecida pela supervisão de processo) e expressão linguística (mantida por dados de propósito geral). Nossas descobertas revelam três insights críticos: (1) A supervisão de processo é altamente eficaz, mas requer estabilização com dados gerais. Uma proporção de pelo menos uma amostra criativa para doze amostras gerais é necessária para alcançar desempenho ideal; abaixo desse limiar, a taxa de sucesso degrada progressivamente (de 62,75% para 35,78%). (2) As capacidades criativas são culturalmente limitadas, sem transferência interlinguística (lacuna de 89,26pp entre o desempenho em chinês e inglês). (3) A diversidade lexical correlaciona-se inversamente com a qualidade criativa (paradoxo TTR), sugerindo que alta diversidade sinaliza comportamento compensatório para deficiências lógicas. Essas descobertas estabelecem que a excelência criativa emerge da interação entre andaimes lógicos e fundamentação linguística, de forma análoga a como o raciocínio matemático aprimora, mas não pode substituir, a competência linguística em modelos de base.
English
Large language models exhibit systematic deficiencies in creative writing,
particularly in non-English contexts where training data is scarce and lacks
process-level supervision. We present COIG-Writer, a novel Chinese creative
writing dataset that captures both diverse outputs and their underlying thought
processes through systematic reverse-engineering of high-quality texts. Unlike
existing datasets that provide only input-output pairs, COIG-Writer comprises
1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a
reverse-engineered prompt, (2) detailed creative reasoning documenting
decision-making processes, and (3) the final text. Through comprehensive
experiments, we identify a two-component model of creative writing: narrative
logic (provided by process supervision) and linguistic expression (maintained
by general-purpose data). Our findings reveal three critical insights: (1)
Process supervision is highly effective but requires stabilization with general
data. A ratio of at least one creative sample to twelve general samples is
needed to achieve optimal performance; below this threshold, the win rate
progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities
are culturally-bound with no cross-lingual transfer (89.26pp gap between
Chinese and English performance), and (3) lexical diversity inversely
correlates with creative quality (TTR paradox), suggesting high diversity
signals compensatory behavior for logical deficiencies. These findings
establish that creative excellence emerges from the interaction between logical
scaffolding and linguistic grounding, analogous to how mathematical reasoning
enhances but cannot replace linguistic competence in foundation models.