Evaluación de la Creatividad Textual en Diversos Dominios: Un Conjunto de Datos y un Evaluador Basado en Modelos de Lenguaje a Gran Escala
Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator
May 25, 2025
Autores: Qian Cao, Xiting Wang, Yuzhuo Yuan, Yahui Liu, Fang Luo, Ruihua Song
cs.AI
Resumen
La evaluación de la creatividad sigue siendo una frontera desafiante para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Las evaluaciones actuales dependen en gran medida de juicios humanos ineficientes y costosos, lo que obstaculiza el progreso en la mejora de la creatividad de las máquinas. Aunque existen métodos automatizados, que van desde pruebas psicológicas hasta enfoques basados en heurísticas o en indicaciones (prompts), a menudo carecen de generalización o alineación con el juicio humano. Para abordar estos problemas, en este artículo proponemos un marco novedoso de comparación por pares para evaluar la creatividad textual, aprovechando instrucciones contextuales compartidas para mejorar la consistencia de la evaluación. Presentamos CreataSet, un conjunto de datos a gran escala con más de 100K pares de instrucción-respuesta creativos generados por humanos y más de 1M pares sintéticos, que abarcan diversas tareas de dominio abierto. Al entrenar con CreataSet, desarrollamos un evaluador basado en LLM llamado CrEval. CrEval demuestra una superioridad notable sobre los métodos existentes en términos de alineación con los juicios humanos. Los resultados experimentales subrayan la importancia indispensable de integrar tanto datos generados por humanos como sintéticos para entrenar evaluadores altamente robustos, y muestran la utilidad práctica de CrEval para impulsar la creatividad de los LLMs. Pronto liberaremos todos los datos, códigos y modelos de manera pública para apoyar investigaciones futuras.
English
Creativity evaluation remains a challenging frontier for large language
models (LLMs). Current evaluations heavily rely on inefficient and costly human
judgments, hindering progress in enhancing machine creativity. While automated
methods exist, ranging from psychological testing to heuristic- or
prompting-based approaches, they often lack generalizability or alignment with
human judgment. To address these issues, in this paper, we propose a novel
pairwise-comparison framework for assessing textual creativity, leveraging
shared contextual instructions to improve evaluation consistency. We introduce
CreataSet, a large-scale dataset with 100K+ human-level and 1M+ synthetic
creative instruction-response pairs spanning diverse open-domain tasks. Through
training on CreataSet, we develop an LLM-based evaluator named CrEval. CrEval
demonstrates remarkable superiority over existing methods in alignment with
human judgments. Experimental results underscore the indispensable significance
of integrating both human-generated and synthetic data in training highly
robust evaluators, and showcase the practical utility of CrEval in boosting the
creativity of LLMs. We will release all data, code, and models publicly soon to
support further research.