Bewertung von Textkreativität über diverse Domänen hinweg: Ein Datensatz und ein Large Language Model als Evaluator
Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator
May 25, 2025
Autoren: Qian Cao, Xiting Wang, Yuzhuo Yuan, Yahui Liu, Fang Luo, Ruihua Song
cs.AI
Zusammenfassung
Die Bewertung von Kreativität bleibt eine herausfordernde Grenze für große Sprachmodelle (LLMs). Aktuelle Bewertungsmethoden stützen sich stark auf ineffiziente und kostspielige menschliche Beurteilungen, was den Fortschritt bei der Verbesserung der maschinellen Kreativität behindert. Obwohl automatisierte Methoden existieren, die von psychologischen Tests bis hin zu heuristischen oder prompt-basierten Ansätzen reichen, mangelt es ihnen oft an Generalisierbarkeit oder Übereinstimmung mit menschlichen Urteilen. Um diese Probleme zu lösen, schlagen wir in diesem Artikel einen neuartigen paarweisen Vergleichsrahmen zur Bewertung von textueller Kreativität vor, der gemeinsame kontextuelle Anweisungen nutzt, um die Konsistenz der Bewertung zu verbessern. Wir stellen CreataSet vor, einen umfangreichen Datensatz mit über 100.000 menschlichen und über 1 Million synthetischen kreativen Anweisungs-Antwort-Paaren, die verschiedene offene Domänenaufgaben abdecken. Durch das Training auf CreataSet entwickeln wir einen LLM-basierten Bewerter namens CrEval. CrEval zeigt eine bemerkenswerte Überlegenheit gegenüber bestehenden Methoden in der Übereinstimmung mit menschlichen Urteilen. Experimentelle Ergebnisse unterstreichen die unverzichtbare Bedeutung der Integration von sowohl menschlich generierten als auch synthetischen Daten für das Training hochrobuster Bewerter und demonstrieren die praktische Nützlichkeit von CrEval bei der Steigerung der Kreativität von LLMs. Wir werden bald alle Daten, Code und Modelle öffentlich freigeben, um weitere Forschungen zu unterstützen.
English
Creativity evaluation remains a challenging frontier for large language
models (LLMs). Current evaluations heavily rely on inefficient and costly human
judgments, hindering progress in enhancing machine creativity. While automated
methods exist, ranging from psychological testing to heuristic- or
prompting-based approaches, they often lack generalizability or alignment with
human judgment. To address these issues, in this paper, we propose a novel
pairwise-comparison framework for assessing textual creativity, leveraging
shared contextual instructions to improve evaluation consistency. We introduce
CreataSet, a large-scale dataset with 100K+ human-level and 1M+ synthetic
creative instruction-response pairs spanning diverse open-domain tasks. Through
training on CreataSet, we develop an LLM-based evaluator named CrEval. CrEval
demonstrates remarkable superiority over existing methods in alignment with
human judgments. Experimental results underscore the indispensable significance
of integrating both human-generated and synthetic data in training highly
robust evaluators, and showcase the practical utility of CrEval in boosting the
creativity of LLMs. We will release all data, code, and models publicly soon to
support further research.