Evaluación de la Creatividad Textual en Diversos Dominios: Un Conjunto de Datos y un Evaluador Basado en Modelos de Lenguaje a Gran Escala

Resumen

La evaluación de la creatividad sigue siendo una frontera desafiante para los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés). Las evaluaciones actuales dependen en gran medida de juicios humanos ineficientes y costosos, lo que obstaculiza el progreso en la mejora de la creatividad de las máquinas. Aunque existen métodos automatizados, que van desde pruebas psicológicas hasta enfoques basados en heurísticas o en indicaciones (prompts), a menudo carecen de generalización o alineación con el juicio humano. Para abordar estos problemas, en este artículo proponemos un marco novedoso de comparación por pares para evaluar la creatividad textual, aprovechando instrucciones contextuales compartidas para mejorar la consistencia de la evaluación. Presentamos CreataSet, un conjunto de datos a gran escala con más de 100K pares de instrucción-respuesta creativos generados por humanos y más de 1M pares sintéticos, que abarcan diversas tareas de dominio abierto. Al entrenar con CreataSet, desarrollamos un evaluador basado en LLM llamado CrEval. CrEval demuestra una superioridad notable sobre los métodos existentes en términos de alineación con los juicios humanos. Los resultados experimentales subrayan la importancia indispensable de integrar tanto datos generados por humanos como sintéticos para entrenar evaluadores altamente robustos, y muestran la utilidad práctica de CrEval para impulsar la creatividad de los LLMs. Pronto liberaremos todos los datos, códigos y modelos de manera pública para apoyar investigaciones futuras.

English

Creativity evaluation remains a challenging frontier for large language models (LLMs). Current evaluations heavily rely on inefficient and costly human judgments, hindering progress in enhancing machine creativity. While automated methods exist, ranging from psychological testing to heuristic- or prompting-based approaches, they often lack generalizability or alignment with human judgment. To address these issues, in this paper, we propose a novel pairwise-comparison framework for assessing textual creativity, leveraging shared contextual instructions to improve evaluation consistency. We introduce CreataSet, a large-scale dataset with 100K+ human-level and 1M+ synthetic creative instruction-response pairs spanning diverse open-domain tasks. Through training on CreataSet, we develop an LLM-based evaluator named CrEval. CrEval demonstrates remarkable superiority over existing methods in alignment with human judgments. Experimental results underscore the indispensable significance of integrating both human-generated and synthetic data in training highly robust evaluators, and showcase the practical utility of CrEval in boosting the creativity of LLMs. We will release all data, code, and models publicly soon to support further research.

Evaluación de la Creatividad Textual en Diversos Dominios: Un Conjunto de Datos y un Evaluador Basado en Modelos de Lenguaje a Gran Escala

Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

Resumen

Support