InnoEval : De l'évaluation des idées de recherche comme problème de raisonnement ancré dans les connaissances et à perspectives multiples
InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem
February 16, 2026
papers.authors: Shuofei Qiao, Yunxiang Wei, Xuehai Wang, Bin Wu, Boyang Xue, Ningyu Zhang, Hossein A. Rahmani, Yanshan Wang, Qiang Zhang, Keyan Ding, Jeff Z. Pan, Huajun Chen, Emine Yilmaz
cs.AI
papers.abstract
L'évolution rapide des grands modèles de langage a catalysé une explosion de la production d'idées scientifiques, mais ce bond en avant ne s'est pas accompagné d'une avancée comparable dans l'évaluation de ces idées. La nature fondamentale de l'évaluation scientifique nécessite un ancrage dans la connaissance, une délibération collective et une prise de décision multicritère. Cependant, les méthodes d'évaluation existantes souffrent souvent d'horizons de connaissance restreints, de dimensions d'évaluation aplaties et des biais inhérents à l'utilisation d'un LLM comme juge. Pour y remédier, nous considérons l'évaluation des idées comme un problème de raisonnement ancré dans la connaissance et multi-perspectives, et nous introduisons InnoEval, un cadre d'évaluation profonde de l'innovation conçu pour reproduire l'évaluation des idées au niveau humain. Nous utilisons un moteur de recherche hétérogène de connaissance profonde qui récupère et ancre des preuves dynamiques provenant de diverses sources en ligne. Nous obtenons en outre un consensus d'examen grâce à un comité de revue de l'innovation composé de relecteurs aux profils académiques distincts, permettant une évaluation découplée et multidimensionnelle selon de multiples métriques. Nous construisons des jeux de données complets dérivés de soumissions autorisées ayant subi une relecture par les pairs pour évaluer les performances d'InnoEval. Les expériences démontrent qu'InnoEval surpasse constamment les méthodes de référence dans les tâches d'évaluation ponctuelle, par paires et par groupe, en présentant des schémas de jugement et un consensus fortement alignés avec ceux des experts humains.
English
The rapid evolution of Large Language Models has catalyzed a surge in scientific idea production, yet this leap has not been accompanied by a matching advance in idea evaluation. The fundamental nature of scientific evaluation needs knowledgeable grounding, collective deliberation, and multi-criteria decision-making. However, existing idea evaluation methods often suffer from narrow knowledge horizons, flattened evaluation dimensions, and the inherent bias in LLM-as-a-Judge. To address these, we regard idea evaluation as a knowledge-grounded, multi-perspective reasoning problem and introduce InnoEval, a deep innovation evaluation framework designed to emulate human-level idea assessment. We apply a heterogeneous deep knowledge search engine that retrieves and grounds dynamic evidence from diverse online sources. We further achieve review consensus with an innovation review board containing reviewers with distinct academic backgrounds, enabling a multi-dimensional decoupled evaluation across multiple metrics. We construct comprehensive datasets derived from authoritative peer-reviewed submissions to benchmark InnoEval. Experiments demonstrate that InnoEval can consistently outperform baselines in point-wise, pair-wise, and group-wise evaluation tasks, exhibiting judgment patterns and consensus highly aligned with human experts.