Qworld: LLM을 위한 질문별 평가 기준
Qworld: Question-Specific Evaluation Criteria for LLMs
March 6, 2026
저자: Shanghua Gao, Yuchang Su, Pengwei Sui, Curtis Ginder, Marinka Zitnik
cs.AI
초록
대규모 언어 모델(LLM)을 자유 응답형 질문에 대해 평가하는 것은 응답 품질이 질문의 맥락에 따라 달라지기 때문에 어렵습니다. 이분법적 점수와 고정된 채점 기준은 이러한 맥락 의존적 요구사항을 제대로 반영하지 못합니다. 기존 방법들은 데이터셋 수준에서 기준을 정의하거나 일회성으로 생성하여 각 질문이 내포하는 평가 공간을 탐색하는 능력이 제한적입니다. 본 연구에서는 재귀적 확장 트리를 사용하여 질문별 평가 기준을 생성하는 방법인 One-Question-One-World(Qworld)를 소개합니다. Qworld는 주어진 질문을 구조화된 계층적 및 수평적 확장을 통해 시나리오, 관점, 세분화된 이분법적 기준으로 분해합니다. 이를 통해 생성된 기준은 해당 질문에 대해 고품질 답변이 반드시 다뤄야 할 내용을 구체적으로 명시합니다. HealthBench에서 Qworld는 전문가가 작성한 기준의 89%를 포괄하며, 인간 전문가가 검증한 새로운 기준의 79%를 생성했습니다. 전문가들은 Qworld의 기준이 기존 방법들보다 통찰력과 세분화 측면에서 더 높이 평가했습니다. HealthBench와 Humanity's Last Exam에서 11개의 최신 LLM에 Qworld를 적용한 결과, 장기적 영향, 형평성, 오류 처리, 학제간 추론 등 기존의 포괄적인 채점 기준으로는 구분하지 못했던 능력 차이를 규명했습니다. Qworld는 기준 생성을 질문이 내포하는 평가 축의 구조적 포괄 문제로 정형화함으로써, 고정된 과업 수준의 기준에 의존하기보다 각 질문에 적응하는 평가를 가능하게 합니다.
English
Evaluating large language models (LLMs) on open-ended questions is difficult because response quality depends on the question's context. Binary scores and static rubrics fail to capture these context-dependent requirements. Existing methods define criteria at the dataset level or generate them in a single pass, which limits their ability to explore the evaluation space implied by each question. We introduce One-Question-One-World (Qworld), a method that generates question-specific evaluation criteria using a recursive expansion tree. Given a question, Qworld decomposes it into scenarios, perspectives, and fine-grained binary criteria through structured hierarchical and horizontal expansion. The resulting criteria specify what a high-quality answer must address for that question. On HealthBench, Qworld covers 89% of expert-authored criteria and generates 79% novel criteria validated by human experts. Experts rate Qworld criteria higher in insight and granularity than those produced by prior methods. When applied to 11 frontier LLMs on HealthBench and Humanity's Last Exam, Qworld reveals capability differences in dimensions such as long-term impact, equity, error handling, and interdisciplinary reasoning that coarse rubrics do not distinguish. By formulating criteria generation as structured coverage of question-implied evaluation axes, Qworld enables evaluation that adapts to each question rather than relying on fixed task-level criteria.