COIG-Writer: Un conjunto de datos de alta calidad para la escritura creativa en chino con procesos de pensamiento
COIG-Writer: A High-Quality Dataset for Chinese Creative Writing with Thought Processes
October 16, 2025
Autores: Yunwen Li, Shuangshuang Ying, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Tianyu Zheng, Xeron Du, Qiguang Chen, Jiajun Shi, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Stephen Huang, Wanxiang Che, Chenghua Lin, Eli Zhang
cs.AI
Resumen
Los modelos de lenguaje de gran escala exhiben deficiencias sistemáticas en la escritura creativa, particularmente en contextos no anglófonos donde los datos de entrenamiento son escasos y carecen de supervisión a nivel de proceso. Presentamos COIG-Writer, un novedoso conjunto de datos de escritura creativa en chino que captura tanto resultados diversos como sus procesos de pensamiento subyacentes mediante la ingeniería inversa sistemática de textos de alta calidad. A diferencia de los conjuntos de datos existentes que solo ofrecen pares de entrada-salida, COIG-Writer comprende 1,665 tripletas meticulosamente curadas que abarcan 51 géneros, cada una de las cuales contiene: (1) un prompt obtenido mediante ingeniería inversa, (2) un razonamiento creativo detallado que documenta los procesos de toma de decisiones, y (3) el texto final. A través de experimentos exhaustivos, identificamos un modelo de dos componentes para la escritura creativa: la lógica narrativa (proporcionada por la supervisión de procesos) y la expresión lingüística (mantenida por datos de propósito general). Nuestros hallazgos revelan tres insights críticos: (1) La supervisión de procesos es altamente efectiva pero requiere estabilización con datos generales. Se necesita una proporción de al menos una muestra creativa por doce muestras generales para alcanzar un rendimiento óptimo; por debajo de este umbral, la tasa de éxito se degrada progresivamente (del 62.75% al 35.78%). (2) Las capacidades creativas están culturalmente ligadas, sin transferencia interlingüística (una brecha de 89.26pp entre el rendimiento en chino e inglés). (3) La diversidad léxica se correlaciona inversamente con la calidad creativa (paradoja TTR), lo que sugiere que una alta diversidad señala un comportamiento compensatorio por deficiencias lógicas. Estos hallazgos establecen que la excelencia creativa emerge de la interacción entre un andamiaje lógico y una base lingüística, análogo a cómo el razonamiento matemático mejora, pero no puede reemplazar, la competencia lingüística en los modelos fundamentales.
English
Large language models exhibit systematic deficiencies in creative writing,
particularly in non-English contexts where training data is scarce and lacks
process-level supervision. We present COIG-Writer, a novel Chinese creative
writing dataset that captures both diverse outputs and their underlying thought
processes through systematic reverse-engineering of high-quality texts. Unlike
existing datasets that provide only input-output pairs, COIG-Writer comprises
1,665 meticulously curated triplets spanning 51 genres, each containing: (1) a
reverse-engineered prompt, (2) detailed creative reasoning documenting
decision-making processes, and (3) the final text. Through comprehensive
experiments, we identify a two-component model of creative writing: narrative
logic (provided by process supervision) and linguistic expression (maintained
by general-purpose data). Our findings reveal three critical insights: (1)
Process supervision is highly effective but requires stabilization with general
data. A ratio of at least one creative sample to twelve general samples is
needed to achieve optimal performance; below this threshold, the win rate
progressively degrades (from 62.75% down to 35.78%)., (2) creative capabilities
are culturally-bound with no cross-lingual transfer (89.26pp gap between
Chinese and English performance), and (3) lexical diversity inversely
correlates with creative quality (TTR paradox), suggesting high diversity
signals compensatory behavior for logical deficiencies. These findings
establish that creative excellence emerges from the interaction between logical
scaffolding and linguistic grounding, analogous to how mathematical reasoning
enhances but cannot replace linguistic competence in foundation models.