Qworld: 大規模言語モデルのための質問特化的評価基準
Qworld: Question-Specific Evaluation Criteria for LLMs
March 6, 2026
著者: Shanghua Gao, Yuchang Su, Pengwei Sui, Curtis Ginder, Marinka Zitnik
cs.AI
要旨
大規模言語モデル(LLM)を自由記述式質問で評価することは困難である。なぜなら回答の質は質問の文脈に依存するためである。二値評価や静的な評価基準表では、こうした文脈依存の要件を捉えられない。既存手法はデータセットレベルで基準を定義するか、単一パスで生成するため、各質問が示唆する評価空間を探求する能力が制限される。我々は、再帰的拡張木を用いて質問固有の評価基準を生成する手法「One-Question-One-World(Qworld)」を提案する。Qworldは、与えられた質問を構造化された階層的・水平的拡張を通じて、シナリオ、視点、細分化された二値基準へと分解する。生成された基準は、その質問に対して高品質な回答が満たすべき要件を特定する。HealthBenchでは、Qworldは専門家が作成した基準の89%を網羅し、専門家による検証を経た新規基準を79%生成した。専門家は、Qworldの基準が従来手法よりも洞察力と粒度において優れていると評価した。HealthBenchとHumanity's Last Examにおいて11の先進的LLMに適用した結果、Qworldは長期的影響、公平性、エラー処理、学際的推論などの次元で、粗い評価基準では区別不能だった能力差を明らかにした。基準生成を「質問が示唆する評価軸の構造的網羅」として定式化することで、Qworldは固定されたタスクレベルの基準に依存せず、各質問に適応する評価を実現する。
English
Evaluating large language models (LLMs) on open-ended questions is difficult because response quality depends on the question's context. Binary scores and static rubrics fail to capture these context-dependent requirements. Existing methods define criteria at the dataset level or generate them in a single pass, which limits their ability to explore the evaluation space implied by each question. We introduce One-Question-One-World (Qworld), a method that generates question-specific evaluation criteria using a recursive expansion tree. Given a question, Qworld decomposes it into scenarios, perspectives, and fine-grained binary criteria through structured hierarchical and horizontal expansion. The resulting criteria specify what a high-quality answer must address for that question. On HealthBench, Qworld covers 89% of expert-authored criteria and generates 79% novel criteria validated by human experts. Experts rate Qworld criteria higher in insight and granularity than those produced by prior methods. When applied to 11 frontier LLMs on HealthBench and Humanity's Last Exam, Qworld reveals capability differences in dimensions such as long-term impact, equity, error handling, and interdisciplinary reasoning that coarse rubrics do not distinguish. By formulating criteria generation as structured coverage of question-implied evaluation axes, Qworld enables evaluation that adapts to each question rather than relying on fixed task-level criteria.