Qworld: Criterios de Evaluación Específicos por Pregunta para Modelos de Lenguaje Grandes

Resumen

La evaluación de modelos de lenguaje grandes (LLM) en preguntas abiertas es difícil porque la calidad de la respuesta depende del contexto de la pregunta. Las puntuaciones binarias y las rúbricas estáticas no logran capturar estos requisitos dependientes del contexto. Los métodos existentes definen criterios a nivel del conjunto de datos o los generan en un solo paso, lo que limita su capacidad para explorar el espacio de evaluación implícito en cada pregunta. Introducimos One-Question-One-World (Qworld), un método que genera criterios de evaluación específicos para cada pregunta utilizando un árbol de expansión recursiva. Dada una pregunta, Qworld la descompone en escenarios, perspectivas y criterios binarios detallados mediante una expansión jerárquica y horizontal estructurada. Los criterios resultantes especifican lo que una respuesta de alta calidad debe abordar para esa pregunta. En HealthBench, Qworld cubre el 89% de los criterios elaborados por expertos y genera un 79% de criterios novedosos validados por expertos humanos. Los expertos califican los criterios de Qworld más altos en perspicacia y granularidad que los producidos por métodos anteriores. Cuando se aplica a 11 LLM de vanguardia en HealthBench y Humanity's Last Exam, Qworld revela diferencias de capacidad en dimensiones como el impacto a largo plazo, la equidad, el manejo de errores y el razonamiento interdisciplinario que las rúbricas generales no distinguen. Al formular la generación de criterios como una cobertura estructurada de los ejes de evaluación implícitos en la pregunta, Qworld permite una evaluación que se adapta a cada pregunta en lugar de depender de criterios fijos a nivel de tarea.

English

Evaluating large language models (LLMs) on open-ended questions is difficult because response quality depends on the question's context. Binary scores and static rubrics fail to capture these context-dependent requirements. Existing methods define criteria at the dataset level or generate them in a single pass, which limits their ability to explore the evaluation space implied by each question. We introduce One-Question-One-World (Qworld), a method that generates question-specific evaluation criteria using a recursive expansion tree. Given a question, Qworld decomposes it into scenarios, perspectives, and fine-grained binary criteria through structured hierarchical and horizontal expansion. The resulting criteria specify what a high-quality answer must address for that question. On HealthBench, Qworld covers 89% of expert-authored criteria and generates 79% novel criteria validated by human experts. Experts rate Qworld criteria higher in insight and granularity than those produced by prior methods. When applied to 11 frontier LLMs on HealthBench and Humanity's Last Exam, Qworld reveals capability differences in dimensions such as long-term impact, equity, error handling, and interdisciplinary reasoning that coarse rubrics do not distinguish. By formulating criteria generation as structured coverage of question-implied evaluation axes, Qworld enables evaluation that adapts to each question rather than relying on fixed task-level criteria.

Qworld: Criterios de Evaluación Específicos por Pregunta para Modelos de Lenguaje Grandes

Qworld: Question-Specific Evaluation Criteria for LLMs

Resumen

Support