KWBench: Измерение спонтанного распознавания проблем в интеллектуальном труде
KWBench: Measuring Unprompted Problem Recognition in Knowledge Work
April 17, 2026
Авторы: Ankit Maloo
cs.AI
Аннотация
Мы представляем первую версию KWBench (Knowledge Work Bench) — эталонный тест для оценки способности больших языковых моделей к самостоятельному распознаванию проблем: может ли ИИ-модель идентифицировать профессиональный сценарий до попытки его решения. Существующие передовые бенчмарки достигли насыщения, а большинство оценок интеллектуального труда сводятся к извлечению данных или выполнению задач по спецификации. KWBench фокусируется на этапе, предшествующему этому: распознавании структуры, управляющей ситуацией, на основе только исходных данных.
Бенчмарк содержит 223 задания, предоставленные практиками из сфер поглощений, договорных переговоров, клинической фармации, организационной политики, анализа мошенничества и проектирования стимулов. Каждое задание кодирует формальную игротеоретическую модель (конфликт принципала и агента, сигнализирование, провал механизма проектирования, стратегическое упущение, коалиционная динамика, стратегическая взаимозависимость) и содержит структурированную эталонную разметку, фиксирующую экспертную интерпретацию ситуации и ожидаемые режимы сбоев. Модели получают сырые данные и формулировку задачи без указания типа проблемы. Оценка проводится по трехуровневой рубрике с обязательной конъюнктивной проверкой. Обязательные критерии кодируют предсказанные ошибочные пути.
Мы оценили 16 моделей. Лучшая модель справляется с 27.9% задач. Две лучшие модели совпадают в результатах только по 31.7% успешно решенных задач. Среди топ-8 моделей 44 задачи решены ровно одной моделью; маршрутизация между топ-8 моделями покрывает 50.7% бенчмарка — почти вдвое больше, чем лучшая одиночная модель. При условии успешного прохождения качественные оценки сходятся (примерно 83% для всех моделей); безусловные оценки расходятся. Те же модели правильно формулируют соответствующие игротеоретические концепции при прямом запросе, но не применяют их самостоятельно.
Мы публикуем KWBench, чтобы изменить подход к оценке передовых моделей в сфере интеллектуального труда, измеряя их способность распознавать правильную проблему исходя только из контекста ситуации, а не только то, насколько хорошо они выполняют задачу после того, как проблема была для них сформулирована.
English
We introduce the first version of KWBench (Knowledge Work Bench), a benchmark for unprompted problem recognition in large language models: can an LLM identify a professional scenario before attempting to solve it. Existing frontier benchmarks have saturated, and most knowledge-work evaluations to date reduce to extraction or task completion against a specification. KWBench targets the step before that: recognizing the governing structure of the situation from raw inputs alone.
The benchmark contains 223 tasks sourced from practitioners across acquisitions, contract negotiations, clinical pharmacy, organizational politics, fraud analysis, and incentive design. Each task encodes a formal game-theoretic pattern (principal-agent conflict, signaling, mechanism design failure, strategic omission, coalitional dynamics, strategic interdependence) and carries structured ground truth recording the expert reading of the situation and the anticipated failure modes. Models receive raw data and a task prompt with no indication of problem type. Scoring is a three-tier rubric gated by a mandatory conjunctive check. Mandatory criteria encode the predicted wrong paths.
We evaluate 16 models. The best model passes on 27.9% of tasks. The top two models agree on only 31.7% of their passes. Among the top 8, 44 tasks are solved by exactly one model; routing across the top 8 covers 50.7% of the benchmark, nearly double the best single model. Conditional on passing, quality scores converge (approx 83% across models); unconditional scores do not. Same models articulate the relevant game-theoretic concept correctly when asked, then fail to apply it unprompted. We release KWBench to shift how frontier models are evaluated on knowledge work, scoring them on whether they recognize the right problem from the situation alone, not only on how well they execute once the problem has been framed for them.