Оценка креативности текста в различных областях: набор данных и система оценки на основе больших языковых моделей
Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator
May 25, 2025
Авторы: Qian Cao, Xiting Wang, Yuzhuo Yuan, Yahui Liu, Fang Luo, Ruihua Song
cs.AI
Аннотация
Оценка креативности остается сложной задачей для крупных языковых моделей (LLM). Современные методы оценки в значительной степени зависят от неэффективных и затратных человеческих суждений, что тормозит прогресс в повышении машинной креативности. Хотя существуют автоматизированные методы, начиная от психологического тестирования до эвристических или основанных на промптах подходов, они часто страдают от недостатка обобщаемости или соответствия человеческим суждениям. Для решения этих проблем в данной статье мы предлагаем новый фреймворк попарного сравнения для оценки текстовой креативности, используя общие контекстные инструкции для повышения согласованности оценки. Мы представляем CreataSet — масштабный набор данных, содержащий более 100 тысяч человеческих и более 1 миллиона синтетических пар "инструкция-ответ", охватывающих разнообразные задачи в открытых доменах. Обучившись на CreataSet, мы разработали LLM-оценщик под названием CrEval. CrEval демонстрирует значительное превосходство над существующими методами в плане соответствия человеческим суждениям. Экспериментальные результаты подчеркивают важность интеграции как человеческих, так и синтетических данных для обучения высоконадежных оценщиков, а также демонстрируют практическую полезность CrEval в повышении креативности LLM. В ближайшее время мы опубликуем все данные, код и модели для поддержки дальнейших исследований.
English
Creativity evaluation remains a challenging frontier for large language
models (LLMs). Current evaluations heavily rely on inefficient and costly human
judgments, hindering progress in enhancing machine creativity. While automated
methods exist, ranging from psychological testing to heuristic- or
prompting-based approaches, they often lack generalizability or alignment with
human judgment. To address these issues, in this paper, we propose a novel
pairwise-comparison framework for assessing textual creativity, leveraging
shared contextual instructions to improve evaluation consistency. We introduce
CreataSet, a large-scale dataset with 100K+ human-level and 1M+ synthetic
creative instruction-response pairs spanning diverse open-domain tasks. Through
training on CreataSet, we develop an LLM-based evaluator named CrEval. CrEval
demonstrates remarkable superiority over existing methods in alignment with
human judgments. Experimental results underscore the indispensable significance
of integrating both human-generated and synthetic data in training highly
robust evaluators, and showcase the practical utility of CrEval in boosting the
creativity of LLMs. We will release all data, code, and models publicly soon to
support further research.