ChatPaper.aiChatPaper

Het evalueren van tekstcreativiteit in diverse domeinen: Een dataset en een evaluator op basis van grote taalmodellen

Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

May 25, 2025
Auteurs: Qian Cao, Xiting Wang, Yuzhuo Yuan, Yahui Liu, Fang Luo, Ruihua Song
cs.AI

Samenvatting

Het evalueren van creativiteit blijft een uitdagend gebied voor grote taalmodelen (LLMs). Huidige evaluaties zijn sterk afhankelijk van inefficiënte en kostbare menselijke beoordelingen, wat de vooruitgang in het verbeteren van machinecreativiteit belemmert. Hoewel er geautomatiseerde methoden bestaan, variërend van psychologische tests tot heuristische of op prompts gebaseerde benaderingen, missen deze vaak generaliseerbaarheid of overeenstemming met menselijk oordeel. Om deze problemen aan te pakken, stellen we in dit artikel een nieuw framework voor op basis van paarsgewijze vergelijkingen om tekstuele creativiteit te beoordelen, waarbij gedeelde contextuele instructies worden gebruikt om de consistentie van de evaluatie te verbeteren. We introduceren CreataSet, een grootschalige dataset met meer dan 100K menselijke en 1M+ synthetische creatieve instructie-responsparen die diverse open-domeintaken omvatten. Door training op CreataSet ontwikkelen we een LLM-gebaseerde evaluator genaamd CrEval. CrEval toont een opmerkelijke superioriteit ten opzichte van bestaande methoden in overeenstemming met menselijke beoordelingen. Experimentele resultaten benadrukken het onmisbare belang van het integreren van zowel door mensen gegenereerde als synthetische data bij het trainen van zeer robuuste evaluators, en demonstreren de praktische bruikbaarheid van CrEval bij het stimuleren van de creativiteit van LLMs. We zullen binnenkort alle data, code en modellen openbaar vrijgeven om verder onderzoek te ondersteunen.
English
Creativity evaluation remains a challenging frontier for large language models (LLMs). Current evaluations heavily rely on inefficient and costly human judgments, hindering progress in enhancing machine creativity. While automated methods exist, ranging from psychological testing to heuristic- or prompting-based approaches, they often lack generalizability or alignment with human judgment. To address these issues, in this paper, we propose a novel pairwise-comparison framework for assessing textual creativity, leveraging shared contextual instructions to improve evaluation consistency. We introduce CreataSet, a large-scale dataset with 100K+ human-level and 1M+ synthetic creative instruction-response pairs spanning diverse open-domain tasks. Through training on CreataSet, we develop an LLM-based evaluator named CrEval. CrEval demonstrates remarkable superiority over existing methods in alignment with human judgments. Experimental results underscore the indispensable significance of integrating both human-generated and synthetic data in training highly robust evaluators, and showcase the practical utility of CrEval in boosting the creativity of LLMs. We will release all data, code, and models publicly soon to support further research.
PDF33May 30, 2025