ChatPaper.aiChatPaper

Avaliação da Criatividade Textual em Diferentes Domínios: Um Conjunto de Dados e um Avaliador Baseado em Modelos de Linguagem de Grande Escala

Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

May 25, 2025
Autores: Qian Cao, Xiting Wang, Yuzhuo Yuan, Yahui Liu, Fang Luo, Ruihua Song
cs.AI

Resumo

A avaliação da criatividade continua sendo uma fronteira desafiadora para os modelos de linguagem de grande escala (LLMs). As avaliações atuais dependem fortemente de julgamentos humanos ineficientes e custosos, o que dificulta o progresso no aprimoramento da criatividade das máquinas. Embora existam métodos automatizados, variando de testes psicológicos a abordagens baseadas em heurísticas ou prompts, eles frequentemente carecem de generalização ou alinhamento com o julgamento humano. Para abordar essas questões, neste artigo, propomos uma nova estrutura de comparação pareada para avaliar a criatividade textual, aproveitando instruções contextuais compartilhadas para melhorar a consistência da avaliação. Introduzimos o CreataSet, um conjunto de dados em larga escala com mais de 100 mil pares de instrução-resposta criativos de nível humano e mais de 1 milhão de pares sintéticos, abrangendo diversas tarefas de domínio aberto. Ao treinar no CreataSet, desenvolvemos um avaliador baseado em LLM chamado CrEval. O CrEval demonstra uma superioridade notável em relação aos métodos existentes no alinhamento com os julgamentos humanos. Os resultados experimentais destacam a importância indispensável de integrar dados gerados por humanos e sintéticos no treinamento de avaliadores altamente robustos, e mostram a utilidade prática do CrEval em impulsionar a criatividade dos LLMs. Liberaremos todos os dados, códigos e modelos publicamente em breve para apoiar pesquisas futuras.
English
Creativity evaluation remains a challenging frontier for large language models (LLMs). Current evaluations heavily rely on inefficient and costly human judgments, hindering progress in enhancing machine creativity. While automated methods exist, ranging from psychological testing to heuristic- or prompting-based approaches, they often lack generalizability or alignment with human judgment. To address these issues, in this paper, we propose a novel pairwise-comparison framework for assessing textual creativity, leveraging shared contextual instructions to improve evaluation consistency. We introduce CreataSet, a large-scale dataset with 100K+ human-level and 1M+ synthetic creative instruction-response pairs spanning diverse open-domain tasks. Through training on CreataSet, we develop an LLM-based evaluator named CrEval. CrEval demonstrates remarkable superiority over existing methods in alignment with human judgments. Experimental results underscore the indispensable significance of integrating both human-generated and synthetic data in training highly robust evaluators, and showcase the practical utility of CrEval in boosting the creativity of LLMs. We will release all data, code, and models publicly soon to support further research.
PDF33December 11, 2025