Valutazione della Creatività Testuale in Diversi Domini: Un Dataset e un Valutatore Basato su Modelli Linguistici di Grandi Dimensioni

Abstract

La valutazione della creatività rimane una frontiera impegnativa per i grandi modelli linguistici (LLM). Le valutazioni attuali si basano fortemente su giudizi umani inefficienti e costosi, ostacolando i progressi nel potenziamento della creatività delle macchine. Sebbene esistano metodi automatizzati, che vanno dai test psicologici agli approcci basati su euristiche o prompt, spesso mancano di generalizzabilità o allineamento con il giudizio umano. Per affrontare questi problemi, in questo articolo proponiamo un nuovo framework di confronto a coppie per valutare la creatività testuale, sfruttando istruzioni contestuali condivise per migliorare la coerenza della valutazione. Introduciamo CreataSet, un dataset su larga scala con oltre 100.000 coppie di istruzioni-risposte creative a livello umano e oltre 1 milione di coppie sintetiche, che coprono una vasta gamma di task aperti. Addestrando su CreataSet, sviluppiamo un valutatore basato su LLM chiamato CrEval. CrEval dimostra una superiorità notevole rispetto ai metodi esistenti nell'allineamento con i giudizi umani. I risultati sperimentali sottolineano l'importanza indispensabile di integrare sia dati generati dall'uomo che sintetici nell'addestramento di valutatori altamente robusti, e mostrano l'utilità pratica di CrEval nel potenziare la creatività degli LLM. Rilasceremo presto pubblicamente tutti i dati, il codice e i modelli per supportare ulteriori ricerche.

English

Creativity evaluation remains a challenging frontier for large language models (LLMs). Current evaluations heavily rely on inefficient and costly human judgments, hindering progress in enhancing machine creativity. While automated methods exist, ranging from psychological testing to heuristic- or prompting-based approaches, they often lack generalizability or alignment with human judgment. To address these issues, in this paper, we propose a novel pairwise-comparison framework for assessing textual creativity, leveraging shared contextual instructions to improve evaluation consistency. We introduce CreataSet, a large-scale dataset with 100K+ human-level and 1M+ synthetic creative instruction-response pairs spanning diverse open-domain tasks. Through training on CreataSet, we develop an LLM-based evaluator named CrEval. CrEval demonstrates remarkable superiority over existing methods in alignment with human judgments. Experimental results underscore the indispensable significance of integrating both human-generated and synthetic data in training highly robust evaluators, and showcase the practical utility of CrEval in boosting the creativity of LLMs. We will release all data, code, and models publicly soon to support further research.

Valutazione della Creatività Testuale in Diversi Domini: Un Dataset e un Valutatore Basato su Modelli Linguistici di Grandi Dimensioni

Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

Abstract

Support