Évaluation de la créativité textuelle à travers divers domaines : un jeu de données et un évaluateur basé sur un modèle de langage de grande taille
Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator
May 25, 2025
Auteurs: Qian Cao, Xiting Wang, Yuzhuo Yuan, Yahui Liu, Fang Luo, Ruihua Song
cs.AI
Résumé
L'évaluation de la créativité demeure une frontière complexe pour les modèles de langage à grande échelle (LLMs). Les évaluations actuelles reposent fortement sur des jugements humains inefficaces et coûteux, ce qui entrave les progrès dans l'amélioration de la créativité des machines. Bien que des méthodes automatisées existent, allant des tests psychologiques aux approches basées sur des heuristiques ou des prompts, elles manquent souvent de généralisabilité ou d'alignement avec les jugements humains. Pour résoudre ces problèmes, nous proposons dans cet article un cadre novateur de comparaison par paires pour évaluer la créativité textuelle, en exploitant des instructions contextuelles partagées pour améliorer la cohérence de l'évaluation. Nous introduisons CreataSet, un jeu de données à grande échelle comprenant plus de 100 000 paires instruction-réponse créatives de niveau humain et plus d'un million de paires synthétiques, couvrant diverses tâches en domaine ouvert. En entraînant sur CreataSet, nous développons un évaluateur basé sur un LLM nommé CrEval. CrEval démontre une supériorité remarquable par rapport aux méthodes existantes en termes d'alignement avec les jugements humains. Les résultats expérimentaux soulignent l'importance indispensable de l'intégration de données générées par l'homme et de données synthétiques pour entraîner des évaluateurs hautement robustes, et mettent en avant l'utilité pratique de CrEval pour stimuler la créativité des LLMs. Nous publierons bientôt toutes les données, le code et les modèles pour soutenir les recherches futures.
English
Creativity evaluation remains a challenging frontier for large language
models (LLMs). Current evaluations heavily rely on inefficient and costly human
judgments, hindering progress in enhancing machine creativity. While automated
methods exist, ranging from psychological testing to heuristic- or
prompting-based approaches, they often lack generalizability or alignment with
human judgment. To address these issues, in this paper, we propose a novel
pairwise-comparison framework for assessing textual creativity, leveraging
shared contextual instructions to improve evaluation consistency. We introduce
CreataSet, a large-scale dataset with 100K+ human-level and 1M+ synthetic
creative instruction-response pairs spanning diverse open-domain tasks. Through
training on CreataSet, we develop an LLM-based evaluator named CrEval. CrEval
demonstrates remarkable superiority over existing methods in alignment with
human judgments. Experimental results underscore the indispensable significance
of integrating both human-generated and synthetic data in training highly
robust evaluators, and showcase the practical utility of CrEval in boosting the
creativity of LLMs. We will release all data, code, and models publicly soon to
support further research.