Valutazione della Creatività Testuale in Diversi Domini: Un Dataset e un Valutatore Basato su Modelli Linguistici di Grandi Dimensioni
Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator
May 25, 2025
Autori: Qian Cao, Xiting Wang, Yuzhuo Yuan, Yahui Liu, Fang Luo, Ruihua Song
cs.AI
Abstract
La valutazione della creatività rimane una frontiera impegnativa per i grandi modelli linguistici (LLM). Le valutazioni attuali si basano fortemente su giudizi umani inefficienti e costosi, ostacolando i progressi nel potenziamento della creatività delle macchine. Sebbene esistano metodi automatizzati, che vanno dai test psicologici agli approcci basati su euristiche o prompt, spesso mancano di generalizzabilità o allineamento con il giudizio umano. Per affrontare questi problemi, in questo articolo proponiamo un nuovo framework di confronto a coppie per valutare la creatività testuale, sfruttando istruzioni contestuali condivise per migliorare la coerenza della valutazione. Introduciamo CreataSet, un dataset su larga scala con oltre 100.000 coppie di istruzioni-risposte creative a livello umano e oltre 1 milione di coppie sintetiche, che coprono una vasta gamma di task aperti. Addestrando su CreataSet, sviluppiamo un valutatore basato su LLM chiamato CrEval. CrEval dimostra una superiorità notevole rispetto ai metodi esistenti nell'allineamento con i giudizi umani. I risultati sperimentali sottolineano l'importanza indispensabile di integrare sia dati generati dall'uomo che sintetici nell'addestramento di valutatori altamente robusti, e mostrano l'utilità pratica di CrEval nel potenziare la creatività degli LLM. Rilasceremo presto pubblicamente tutti i dati, il codice e i modelli per supportare ulteriori ricerche.
English
Creativity evaluation remains a challenging frontier for large language
models (LLMs). Current evaluations heavily rely on inefficient and costly human
judgments, hindering progress in enhancing machine creativity. While automated
methods exist, ranging from psychological testing to heuristic- or
prompting-based approaches, they often lack generalizability or alignment with
human judgment. To address these issues, in this paper, we propose a novel
pairwise-comparison framework for assessing textual creativity, leveraging
shared contextual instructions to improve evaluation consistency. We introduce
CreataSet, a large-scale dataset with 100K+ human-level and 1M+ synthetic
creative instruction-response pairs spanning diverse open-domain tasks. Through
training on CreataSet, we develop an LLM-based evaluator named CrEval. CrEval
demonstrates remarkable superiority over existing methods in alignment with
human judgments. Experimental results underscore the indispensable significance
of integrating both human-generated and synthetic data in training highly
robust evaluators, and showcase the practical utility of CrEval in boosting the
creativity of LLMs. We will release all data, code, and models publicly soon to
support further research.