ChatPaper.aiChatPaper

InnoEval: 知識に基づいた多角的推論問題としての研究アイデア評価

InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem

February 16, 2026
著者: Shuofei Qiao, Yunxiang Wei, Xuehai Wang, Bin Wu, Boyang Xue, Ningyu Zhang, Hossein A. Rahmani, Yanshan Wang, Qiang Zhang, Keyan Ding, Jeff Z. Pan, Huajun Chen, Emine Yilmaz
cs.AI

要旨

大規模言語モデルの急速な進化は科学アイデアの生産を促進してきたが、この飛躍的な進歩に評価手法の進化は追いついていない。科学的評価の本質は、知識に基づいた根拠、集団的な審議、多基準意思決定を必要とする。しかし既存のアイデア評価手法は、狭い知識範囲、平坦化された評価次元、LLM判定者に内在するバイアスといった課題を抱えている。これらの課題に対処するため、我々はアイデア評価を知識に基づく多視点推論問題と見なし、人間レベルのアイデア評価を模倣する深層イノベーション評価フレームワーク「InnoEval」を提案する。多様なオンラインソースから動的証拠を検索・基盤化する異種深層知識検索エンジンを採用し、異なる学術的背景を持つ評価者から構成されるイノベーション審査委員会による審査合意を実現する。これにより複数指標にわたる多次元分離評価を可能にする。権威ある査読付き投稿から派生した包括的なデータセットを構築し、InnoEvalのベンチマークを実施した。実験結果では、点単位・組単位・群単位の評価タスクにおいてInnoEvalが一貫してベースラインを上回り、人間専門家の判断パターンと合意に高い整合性を示すことを実証した。
English
The rapid evolution of Large Language Models has catalyzed a surge in scientific idea production, yet this leap has not been accompanied by a matching advance in idea evaluation. The fundamental nature of scientific evaluation needs knowledgeable grounding, collective deliberation, and multi-criteria decision-making. However, existing idea evaluation methods often suffer from narrow knowledge horizons, flattened evaluation dimensions, and the inherent bias in LLM-as-a-Judge. To address these, we regard idea evaluation as a knowledge-grounded, multi-perspective reasoning problem and introduce InnoEval, a deep innovation evaluation framework designed to emulate human-level idea assessment. We apply a heterogeneous deep knowledge search engine that retrieves and grounds dynamic evidence from diverse online sources. We further achieve review consensus with an innovation review board containing reviewers with distinct academic backgrounds, enabling a multi-dimensional decoupled evaluation across multiple metrics. We construct comprehensive datasets derived from authoritative peer-reviewed submissions to benchmark InnoEval. Experiments demonstrate that InnoEval can consistently outperform baselines in point-wise, pair-wise, and group-wise evaluation tasks, exhibiting judgment patterns and consensus highly aligned with human experts.
PDF142February 18, 2026