Qworld: Criteri di Valutazione Specifici per Domande nei Modelli Linguistici di Grandi Dimensioni

Abstract

La valutazione di modelli linguistici di grandi dimensioni (LLM) su domande aperte è difficile perché la qualità della risposta dipende dal contesto della domanda. Punteggi binari e rubriche statiche non riescono a cogliere questi requisiti dipendenti dal contesto. I metodi esistenti definiscono criteri a livello di dataset o li generano in un'unica passata, limitando la loro capacità di esplorare lo spazio di valutazione implicito in ogni domanda. Introduciamo One-Question-One-World (Qworld), un metodo che genera criteri di valutazione specifici per ogni domanda utilizzando un albero di espansione ricorsivo. Data una domanda, Qworld la scompone in scenari, prospettive e criteri binari granulari attraverso un'espansione gerarchica strutturata e orizzontale. I criteri risultanti specificano ciò che una risposta di alta qualità deve affrontare per quella domanda. Su HealthBench, Qworld copre l'89% dei criteri redatti da esperti e genera il 79% di criteri nuovi convalidati da esperti umani. Gli esperti valutano i criteri di Qworld più alti in termini di profondità e granularità rispetto a quelli prodotti dai metodi precedenti. Applicato a 11 LLM all'avanguardia su HealthBench e Humanity's Last Exam, Qworld rivela differenze di capacità in dimensioni come impatto a lungo termine, equità, gestione degli errori e ragionamento interdisciplinare che le rubriche grossolane non distinguono. Formulando la generazione di criteri come copertura strutturata degli assi di valutazione impliciti nella domanda, Qworld abilita una valutazione che si adatta a ciascuna domanda piuttosto che affidarsi a criteri fissi a livello di compito.

English

Evaluating large language models (LLMs) on open-ended questions is difficult because response quality depends on the question's context. Binary scores and static rubrics fail to capture these context-dependent requirements. Existing methods define criteria at the dataset level or generate them in a single pass, which limits their ability to explore the evaluation space implied by each question. We introduce One-Question-One-World (Qworld), a method that generates question-specific evaluation criteria using a recursive expansion tree. Given a question, Qworld decomposes it into scenarios, perspectives, and fine-grained binary criteria through structured hierarchical and horizontal expansion. The resulting criteria specify what a high-quality answer must address for that question. On HealthBench, Qworld covers 89% of expert-authored criteria and generates 79% novel criteria validated by human experts. Experts rate Qworld criteria higher in insight and granularity than those produced by prior methods. When applied to 11 frontier LLMs on HealthBench and Humanity's Last Exam, Qworld reveals capability differences in dimensions such as long-term impact, equity, error handling, and interdisciplinary reasoning that coarse rubrics do not distinguish. By formulating criteria generation as structured coverage of question-implied evaluation axes, Qworld enables evaluation that adapts to each question rather than relying on fixed task-level criteria.

Qworld: Criteri di Valutazione Specifici per Domande nei Modelli Linguistici di Grandi Dimensioni

Qworld: Question-Specific Evaluation Criteria for LLMs

Abstract

Support