Qworld: Вопросно-специфичные критерии оценки для больших языковых моделей

Аннотация

Оценка больших языковых моделей (LLM) на открытые вопросы является сложной задачей, поскольку качество ответа зависит от контекста вопроса. Бинарные оценки и статические рубрики не способны уловить эти контекстно-зависимые требования. Существующие методы определяют критерии на уровне набора данных или генерируют их за один проход, что ограничивает их способность исследовать пространство оценки, подразумеваемое каждым вопросом. Мы представляем метод One-Question-One-World (Qworld), который генерирует специфичные для вопроса критерии оценки с использованием рекурсивного дерева расширения. Для заданного вопроса Qworld декомпозирует его на сценарии, перспективы и детализированные бинарные критерии посредством структурированного иерархического и горизонтального расширения. Полученные критерии определяют, что должен охватывать высококачественный ответ на данный вопрос. На HealthBench Qworld покрывает 89% критериев, разработанных экспертами, и генерирует 79% новых критериев, валидированных экспертами-людьми. Эксперты оценивают критерии Qworld выше по глубине и гранулярности, чем критерии, созданные предыдущими методами. При применении к 11 передовым LLM на HealthBench и Humanity's Last Exam, Qworld выявляет различия в возможностях по таким измерениям, как долгосрочное воздействие, справедливость, обработка ошибок и междисциплинарное мышление, которые грубые рубрики не различают. Формулируя генерацию критериев как структурированное покрытие подразумеваемых вопросом осей оценки, Qworld позволяет проводить оценку, адаптирующуюся к каждому вопросу, а не полагаться на фиксированные критерии уровня задачи.

English

Evaluating large language models (LLMs) on open-ended questions is difficult because response quality depends on the question's context. Binary scores and static rubrics fail to capture these context-dependent requirements. Existing methods define criteria at the dataset level or generate them in a single pass, which limits their ability to explore the evaluation space implied by each question. We introduce One-Question-One-World (Qworld), a method that generates question-specific evaluation criteria using a recursive expansion tree. Given a question, Qworld decomposes it into scenarios, perspectives, and fine-grained binary criteria through structured hierarchical and horizontal expansion. The resulting criteria specify what a high-quality answer must address for that question. On HealthBench, Qworld covers 89% of expert-authored criteria and generates 79% novel criteria validated by human experts. Experts rate Qworld criteria higher in insight and granularity than those produced by prior methods. When applied to 11 frontier LLMs on HealthBench and Humanity's Last Exam, Qworld reveals capability differences in dimensions such as long-term impact, equity, error handling, and interdisciplinary reasoning that coarse rubrics do not distinguish. By formulating criteria generation as structured coverage of question-implied evaluation axes, Qworld enables evaluation that adapts to each question rather than relying on fixed task-level criteria.

Qworld: Вопросно-специфичные критерии оценки для больших языковых моделей

Qworld: Question-Specific Evaluation Criteria for LLMs

Аннотация

Support