COIG-Writer: Um Conjunto de Dados de Alta Qualidade para Escrita Criativa em Chinês com Processos de Pensamento

Resumo

Grandes modelos de linguagem exibem deficiências sistemáticas na escrita criativa, particularmente em contextos não anglófonos onde os dados de treinamento são escassos e carecem de supervisão em nível de processo. Apresentamos o COIG-Writer, um novo conjunto de dados para escrita criativa em chinês que captura tanto saídas diversas quanto seus processos de pensamento subjacentes por meio de engenharia reversa sistemática de textos de alta qualidade. Diferentemente de conjuntos de dados existentes que fornecem apenas pares de entrada-saída, o COIG-Writer compreende 1.665 triplas meticulosamente curadas abrangendo 51 gêneros, cada uma contendo: (1) um prompt de engenharia reversa, (2) raciocínio criativo detalhado documentando os processos de tomada de decisão, e (3) o texto final. Por meio de experimentos abrangentes, identificamos um modelo de escrita criativa de dois componentes: lógica narrativa (fornecida pela supervisão de processo) e expressão linguística (mantida por dados de propósito geral). Nossas descobertas revelam três insights críticos: (1) A supervisão de processo é altamente eficaz, mas requer estabilização com dados gerais. Uma proporção de pelo menos uma amostra criativa para doze amostras gerais é necessária para alcançar desempenho ideal; abaixo desse limiar, a taxa de sucesso degrada progressivamente (de 62,75% para 35,78%). (2) As capacidades criativas são culturalmente limitadas, sem transferência interlinguística (lacuna de 89,26pp entre o desempenho em chinês e inglês). (3) A diversidade lexical correlaciona-se inversamente com a qualidade criativa (paradoxo TTR), sugerindo que alta diversidade sinaliza comportamento compensatório para deficiências lógicas. Essas descobertas estabelecem que a excelência criativa emerge da interação entre andaimes lógicos e fundamentação linguística, de forma análoga a como o raciocínio matemático aprimora, mas não pode substituir, a competência linguística em modelos de base.

English

Large language models exhibit systematic deficiencies in creative writing, particularly in non-English contexts where training data is scarce and lacks process-level supervision. We present COIG-Writer, a novel Chinese creative writing dataset that captures both diverse outputs and their underlying thought processes through systematic reverse-engineering of high-quality texts. Unlike existing datasets that provide only input-output pairs, COIG-Writer comprises 1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a reverse-engineered prompt, (2) detailed creative reasoning documenting decision-making processes, and (3) the final text. Through comprehensive experiments, we identify a two-component model of creative writing: narrative logic (provided by process supervision) and linguistic expression (maintained by general-purpose data). Our findings reveal three critical insights: (1) Process supervision is highly effective but requires stabilization with general data. A ratio of at least one creative sample to twelve general samples is needed to achieve optimal performance; below this threshold, the win rate progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities are culturally-bound with no cross-lingual transfer (89.26pp gap between Chinese and English performance), and (3) lexical diversity inversely correlates with creative quality (TTR paradox), suggesting high diversity signals compensatory behavior for logical deficiencies. These findings establish that creative excellence emerges from the interaction between logical scaffolding and linguistic grounding, analogous to how mathematical reasoning enhances but cannot replace linguistic competence in foundation models.

COIG-Writer: Um Conjunto de Dados de Alta Qualidade para Escrita Criativa em Chinês com Processos de Pensamento

COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes

Resumo

Support