Qworld: Fragenspezifische Bewertungskriterien für große Sprachmodelle

Zusammenfassung

Die Bewertung großer Sprachmodelle (LLMs) anhand offener Fragen ist schwierig, da die Qualität der Antworten vom Kontext der Frage abhängt. Binäre Bewertungen und statische Bewertungsraster erfassen diese kontextabhängigen Anforderungen nicht. Bestehende Methoden definieren Kriterien auf Datensatzebene oder generieren sie in einem einzigen Durchgang, was ihre Fähigkeit einschränkt, den durch jede Frage implizierten Bewertungsraum zu erkunden. Wir stellen One-Question-One-World (Qworld) vor, eine Methode, die questionsspezifische Bewertungskriterien mithilfe eines rekursiven Erweiterungsbaums generiert. Ausgehend von einer Frage zerlegt Qworld diese durch strukturierte hierarchische und horizontale Erweiterung in Szenarien, Perspektiven und feinkörnige binäre Kriterien. Die resultierenden Kriterien legen fest, was eine hochwertige Antwort für diese Frage behandeln muss. Auf HealthBench deckt Qworld 89 % der von Experten verfassten Kriterien ab und generiert 79 % neue, von menschlichen Experten validierte Kriterien. Experten bewerten die Kriterien von Qworld höher in Bezug auf Einsicht und Granularität als die von früheren Methoden erzeugten. Bei der Anwendung auf 11 führende LLMs für HealthBench und Humanity's Last Exam zeigt Qworld Fähigkeitsunterschiede in Dimensionen wie langfristige Auswirkungen, Gerechtigkeit, Fehlerbehandlung und interdisziplinäre Argumentation auf, die grobe Bewertungsraster nicht unterscheiden können. Indem Qworld die Kriteriengenerierung als strukturierte Abdeckung frageimplizierter Bewertungsachsen formuliert, ermöglicht es eine Bewertung, die sich an jede Frage anpasst, anstatt auf festen aufgabenbezogenen Kriterien zu beruhen.

English

Evaluating large language models (LLMs) on open-ended questions is difficult because response quality depends on the question's context. Binary scores and static rubrics fail to capture these context-dependent requirements. Existing methods define criteria at the dataset level or generate them in a single pass, which limits their ability to explore the evaluation space implied by each question. We introduce One-Question-One-World (Qworld), a method that generates question-specific evaluation criteria using a recursive expansion tree. Given a question, Qworld decomposes it into scenarios, perspectives, and fine-grained binary criteria through structured hierarchical and horizontal expansion. The resulting criteria specify what a high-quality answer must address for that question. On HealthBench, Qworld covers 89% of expert-authored criteria and generates 79% novel criteria validated by human experts. Experts rate Qworld criteria higher in insight and granularity than those produced by prior methods. When applied to 11 frontier LLMs on HealthBench and Humanity's Last Exam, Qworld reveals capability differences in dimensions such as long-term impact, equity, error handling, and interdisciplinary reasoning that coarse rubrics do not distinguish. By formulating criteria generation as structured coverage of question-implied evaluation axes, Qworld enables evaluation that adapts to each question rather than relying on fixed task-level criteria.

Qworld: Fragenspezifische Bewertungskriterien für große Sprachmodelle

Qworld: Question-Specific Evaluation Criteria for LLMs

Zusammenfassung

Support