KWBench: Medição do Reconhecimento Não Solicitado de Problemas no Trabalho do Conhecimento

Resumo

Apresentamos a primeira versão do KWBench (Knowledge Work Bench), um benchmark para o reconhecimento não solicitado de problemas em modelos de linguagem grandes: pode um LLM identificar um cenário profissional antes de tentar resolvê-lo? Os benchmarks de fronteira existentes estão saturados, e a maioria das avaliações de trabalho intelectual até hoje se resume à extração ou conclusão de tarefas contra uma especificação. O KWBench visa a etapa anterior a essa: reconhecer a estrutura governante da situação a partir apenas de entradas brutas. O benchmark contém 223 tarefas originadas de profissionais das áreas de aquisições, negociações contratuais, farmácia clínica, política organizacional, análise de fraudes e design de incentivos. Cada tarefa codifica um padrão formal da teoria dos jogos (conflito principal-agente, sinalização, falha no *design* de mecanismos, omissão estratégica, dinâmicas coalizacionais, interdependência estratégica) e carrega uma *ground truth* estruturada que registra a leitura especializada da situação e os modos de falha antecipados. Os modelos recebem dados brutos e um *prompt* de tarefa sem qualquer indicação do tipo de problema. A pontuação segue uma rubrica de três níveis condicionada a uma verificação conjuntiva obrigatória. Os critérios obrigatórios codificam os caminhos errados previstos. Avaliamos 16 modelos. O melhor modelo é aprovado em 27,9% das tarefas. Os dois melhores modelos concordam em apenas 31,7% de suas aprovações. Entre os 8 primeiros, 44 tarefas são resolvidas por exatamente um modelo; o roteamento entre os 8 primeiros cobre 50,7% do *benchmark*, quase o dobro do melhor modelo individual. Condicionada à aprovação, as pontuações de qualidade convergem (aproximadamente 83% entre os modelos); as pontuações incondicionais não convergem. Os mesmos modelos articulam o conceito relevante da teoria dos jogos corretamente quando questionados, mas falham em aplicá-lo sem solicitação. Disponibilizamos o KWBench para mudar a forma como os modelos de fronteira são avaliados no trabalho intelectual, pontuando-os com base em se reconhecem o problema correto a partir apenas da situação, e não apenas em quão bem eles executam uma vez que o problema foi estruturado para eles.

English

We introduce the first version of KWBench (Knowledge Work Bench), a benchmark for unprompted problem recognition in large language models: can an LLM identify a professional scenario before attempting to solve it. Existing frontier benchmarks have saturated, and most knowledge-work evaluations to date reduce to extraction or task completion against a specification. KWBench targets the step before that: recognizing the governing structure of the situation from raw inputs alone. The benchmark contains 223 tasks sourced from practitioners across acquisitions, contract negotiations, clinical pharmacy, organizational politics, fraud analysis, and incentive design. Each task encodes a formal game-theoretic pattern (principal-agent conflict, signaling, mechanism design failure, strategic omission, coalitional dynamics, strategic interdependence) and carries structured ground truth recording the expert reading of the situation and the anticipated failure modes. Models receive raw data and a task prompt with no indication of problem type. Scoring is a three-tier rubric gated by a mandatory conjunctive check. Mandatory criteria encode the predicted wrong paths. We evaluate 16 models. The best model passes on 27.9% of tasks. The top two models agree on only 31.7% of their passes. Among the top 8, 44 tasks are solved by exactly one model; routing across the top 8 covers 50.7% of the benchmark, nearly double the best single model. Conditional on passing, quality scores converge (approx 83% across models); unconditional scores do not. Same models articulate the relevant game-theoretic concept correctly when asked, then fail to apply it unprompted. We release KWBench to shift how frontier models are evaluated on knowledge work, scoring them on whether they recognize the right problem from the situation alone, not only on how well they execute once the problem has been framed for them.

KWBench: Medição do Reconhecimento Não Solicitado de Problemas no Trabalho do Conhecimento

KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

Resumo

Support