Qworld: Critérios de Avaliação Específicos por Pergunta para LLMs

Resumo

A avaliação de modelos de linguagem de grande escala (LLMs) em questões abertas é difícil porque a qualidade da resposta depende do contexto da pergunta. Pontuações binárias e rubricas estáticas não conseguem capturar esses requisitos dependentes do contexto. Os métodos existentes definem critérios ao nível do conjunto de dados ou os geram numa única passagem, o que limita a sua capacidade de explorar o espaço de avaliação implícito em cada pergunta. Apresentamos o One-Question-One-World (Qworld), um método que gera critérios de avaliação específicos para cada pergunta usando uma árvore de expansão recursiva. Dada uma pergunta, o Qworld decompõe-a em cenários, perspetivas e critérios binários refinados através de uma expansão hierárquica e horizontal estruturada. Os critérios resultantes especificam o que uma resposta de alta qualidade deve abordar para essa questão. No HealthBench, o Qworld cobre 89% dos critérios elaborados por especialistas e gera 79% de critérios novos validados por especialistas humanos. Os especialistas classificam os critérios do Qworld como superiores em perspicácia e granularidade em comparação com os produzidos por métodos anteriores. Quando aplicado a 11 LLMs de ponta no HealthBench e no Humanity's Last Exam, o Qworld revela diferenças de capacidade em dimensões como impacto a longo prazo, equidade, gestão de erros e raciocínio interdisciplinar que as rubricas grosseiras não distinguem. Ao formular a geração de critérios como uma cobertura estruturada dos eixos de avaliação implícitos na pergunta, o Qworld permite uma avaliação que se adapta a cada questão, em vez de depender de critérios fixos ao nível da tarefa.

English

Evaluating large language models (LLMs) on open-ended questions is difficult because response quality depends on the question's context. Binary scores and static rubrics fail to capture these context-dependent requirements. Existing methods define criteria at the dataset level or generate them in a single pass, which limits their ability to explore the evaluation space implied by each question. We introduce One-Question-One-World (Qworld), a method that generates question-specific evaluation criteria using a recursive expansion tree. Given a question, Qworld decomposes it into scenarios, perspectives, and fine-grained binary criteria through structured hierarchical and horizontal expansion. The resulting criteria specify what a high-quality answer must address for that question. On HealthBench, Qworld covers 89% of expert-authored criteria and generates 79% novel criteria validated by human experts. Experts rate Qworld criteria higher in insight and granularity than those produced by prior methods. When applied to 11 frontier LLMs on HealthBench and Humanity's Last Exam, Qworld reveals capability differences in dimensions such as long-term impact, equity, error handling, and interdisciplinary reasoning that coarse rubrics do not distinguish. By formulating criteria generation as structured coverage of question-implied evaluation axes, Qworld enables evaluation that adapts to each question rather than relying on fixed task-level criteria.

Qworld: Critérios de Avaliação Específicos por Pergunta para LLMs

Qworld: Question-Specific Evaluation Criteria for LLMs

Resumo

Support