InnoEval: Sobre a Avaliação de Ideias de Pesquisa como um Problema de Raciocínio Multi-Perspectiva e Fundamentado em Conhecimento

Resumo

A rápida evolução dos Modelos de Linguagem de Grande Porte (LLMs) catalisou um aumento na produção de ideias científicas, mas este salto não foi acompanhado por um avanço equivalente na avaliação de ideias. A natureza fundamental da avaliação científica requer fundamentação em conhecimento, deliberação coletiva e tomada de decisão multicritério. No entanto, os métodos existentes de avaliação de ideias frequentemente padecem de horizontes de conhecimento limitados, dimensões de avaliação achatadas e do viés inerente ao paradigma "LLM-como-Juiz". Para enfrentar esses desafios, encaramos a avaliação de ideias como um problema de raciocínio fundamentado em conhecimento e multiperspetiva e introduzimos o InnoEval, um quadro de avaliação de inovação profunda concebido para emular a avaliação de ideias a nível humano. Aplicamos um motor de busca de conhecimento profundo e heterogéneo que recupera e fundamenta evidências dinâmicas a partir de diversas fontes online. Alcançamos ainda um consenso de revisão através de um conselho de revisão de inovação composto por revisores com distintas formações académicas, permitindo uma avaliação desacoplada e multidimensional através de múltiplas métricas. Construímos conjuntos de dados abrangentes, derivados de submissões autorizadas revistas por pares, para servir de referência ao InnoEval. Experiências demonstram que o InnoEval supera consistentemente as baseline em tarefas de avaliação pontual, emparelhada e grupal, exibindo padrões de julgamento e consenso altamente alinhados com os de peritos humanos.

English

The rapid evolution of Large Language Models has catalyzed a surge in scientific idea production, yet this leap has not been accompanied by a matching advance in idea evaluation. The fundamental nature of scientific evaluation needs knowledgeable grounding, collective deliberation, and multi-criteria decision-making. However, existing idea evaluation methods often suffer from narrow knowledge horizons, flattened evaluation dimensions, and the inherent bias in LLM-as-a-Judge. To address these, we regard idea evaluation as a knowledge-grounded, multi-perspective reasoning problem and introduce InnoEval, a deep innovation evaluation framework designed to emulate human-level idea assessment. We apply a heterogeneous deep knowledge search engine that retrieves and grounds dynamic evidence from diverse online sources. We further achieve review consensus with an innovation review board containing reviewers with distinct academic backgrounds, enabling a multi-dimensional decoupled evaluation across multiple metrics. We construct comprehensive datasets derived from authoritative peer-reviewed submissions to benchmark InnoEval. Experiments demonstrate that InnoEval can consistently outperform baselines in point-wise, pair-wise, and group-wise evaluation tasks, exhibiting judgment patterns and consensus highly aligned with human experts.