Qworld : Critères d'évaluation spécifiques aux questions pour les LLM

Résumé

L'évaluation des grands modèles de langage (LLM) sur des questions ouvertes est difficile car la qualité de la réponse dépend du contexte de la question. Les scores binaires et les grilles d'évaluation statiques ne parviennent pas à saisir ces exigences dépendantes du contexte. Les méthodes existantes définissent des critères au niveau du jeu de données ou les génèrent en une seule passe, ce qui limite leur capacité à explorer l'espace d'évaluation impliqué par chaque question. Nous présentons One-Question-One-World (Qworld), une méthode qui génère des critères d'évaluation spécifiques à chaque question à l'aide d'un arbre d'expansion récursif. Étant donné une question, Qworld la décompose en scénarios, perspectives et critères binaires fins grâce à une expansion hiérarchique et horizontale structurée. Les critères qui en résultent spécifient ce qu'une réponse de haute qualité doit aborder pour cette question. Sur HealthBench, Qworld couvre 89 % des critères rédigés par des experts et génère 79 % de critères nouveaux, validés par des experts humains. Les experts évaluent les critères de Qworld plus élevés en termes de perspicacité et de granularité que ceux produits par les méthodes antérieures. Appliqué à 11 LLM de pointe sur HealthBench et Humanity's Last Exam, Qworld révèle des différences de capacités dans des dimensions telles que l'impact à long terme, l'équité, la gestion des erreurs et le raisonnement interdisciplinaire, que les grilles grossières ne distinguent pas. En formulant la génération de critères comme une couverture structurée des axes d'évaluation impliqués par la question, Qworld permet une évaluation qui s'adapte à chaque question plutôt que de reposer sur des critères fixes au niveau de la tâche.

English

Evaluating large language models (LLMs) on open-ended questions is difficult because response quality depends on the question's context. Binary scores and static rubrics fail to capture these context-dependent requirements. Existing methods define criteria at the dataset level or generate them in a single pass, which limits their ability to explore the evaluation space implied by each question. We introduce One-Question-One-World (Qworld), a method that generates question-specific evaluation criteria using a recursive expansion tree. Given a question, Qworld decomposes it into scenarios, perspectives, and fine-grained binary criteria through structured hierarchical and horizontal expansion. The resulting criteria specify what a high-quality answer must address for that question. On HealthBench, Qworld covers 89% of expert-authored criteria and generates 79% novel criteria validated by human experts. Experts rate Qworld criteria higher in insight and granularity than those produced by prior methods. When applied to 11 frontier LLMs on HealthBench and Humanity's Last Exam, Qworld reveals capability differences in dimensions such as long-term impact, equity, error handling, and interdisciplinary reasoning that coarse rubrics do not distinguish. By formulating criteria generation as structured coverage of question-implied evaluation axes, Qworld enables evaluation that adapts to each question rather than relying on fixed task-level criteria.

Qworld : Critères d'évaluation spécifiques aux questions pour les LLM

Qworld: Question-Specific Evaluation Criteria for LLMs

Résumé

Support