ChatPaper.aiChatPaper

KWBench : Mesurer la reconnaissance non sollicitée des problèmes dans le travail intellectuel

KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

April 17, 2026
Auteurs: Ankit Maloo
cs.AI

Résumé

Nous présentons la première version de KWBench (Knowledge Work Bench), un benchmark pour l'identification non sollicitée de problèmes par les grands modèles de langage : un LLM peut-il reconnaître un scénario professionnel avant de tenter de le résoudre ? Les benchmarks de pointe existants ont atteint la saturation, et la plupart des évaluations du travail intellectuel se réduisent à de l'extraction ou à l'exécution de tâches selon un cahier des charges. KWBench cible l'étape précédente : reconnaître la structure sous-jacente de la situation à partir des seules données brutes. Le benchmark contient 223 tâches provenant de praticiens dans les domaines des acquisitions, des négociations contractuelles, de la pharmacie clinique, des dynamiques organisationnelles, de l'analyse de fraude et de la conception d'incitations. Chaque tâche encode un schéma formel de théorie des jeux (conflit de principal-agent, signalisation, défaillance de la conception de mécanismes, omission stratégique, dynamiques de coalition, interdépendance stratégique) et comporte une vérité terrain structurée enregistrant l'interprétation experte de la situation et les modes de défaillance anticipés. Les modèles reçoivent des données brutes et une consigne sans indication du type de problème. La notation suit un barème à trois niveaux conditionné par une vérification conjonctive obligatoire. Les critères obligatoires encodent les fausses pistes prédites. Nous évaluons 16 modèles. Le meilleur modèle réussit 27,9 % des tâches. Les deux meilleurs modèles ne sont d'accord que sur 31,7 % de leurs réussites. Parmi les 8 premiers, 44 tâches sont résolues par un seul modèle ; l'acheminement des requêtes parmi les 8 meilleurs modèles couvre 50,7 % du benchmark, soit près du double du meilleur modèle unique. Conditionnellement à la réussite, les scores de qualité convergent (environ 83 % pour tous les modèles) ; les scores non conditionnels divergent. Les mêmes modèles formulent correctement le concept de théorie des jeux pertinent lorsqu'on le leur demande, puis échouent à l'appliquer sans consigne explicite. Nous publions KWBench pour faire évoluer l'évaluation des modèles de pointe sur le travail intellectuel, en les notant sur leur capacité à identifier le bon problème à partir de la seule situation, et pas seulement sur leur performance une fois le problème cadré pour eux.
English
We introduce the first version of KWBench (Knowledge Work Bench), a benchmark for unprompted problem recognition in large language models: can an LLM identify a professional scenario before attempting to solve it. Existing frontier benchmarks have saturated, and most knowledge-work evaluations to date reduce to extraction or task completion against a specification. KWBench targets the step before that: recognizing the governing structure of the situation from raw inputs alone. The benchmark contains 223 tasks sourced from practitioners across acquisitions, contract negotiations, clinical pharmacy, organizational politics, fraud analysis, and incentive design. Each task encodes a formal game-theoretic pattern (principal-agent conflict, signaling, mechanism design failure, strategic omission, coalitional dynamics, strategic interdependence) and carries structured ground truth recording the expert reading of the situation and the anticipated failure modes. Models receive raw data and a task prompt with no indication of problem type. Scoring is a three-tier rubric gated by a mandatory conjunctive check. Mandatory criteria encode the predicted wrong paths. We evaluate 16 models. The best model passes on 27.9% of tasks. The top two models agree on only 31.7% of their passes. Among the top 8, 44 tasks are solved by exactly one model; routing across the top 8 covers 50.7% of the benchmark, nearly double the best single model. Conditional on passing, quality scores converge (approx 83% across models); unconditional scores do not. Same models articulate the relevant game-theoretic concept correctly when asked, then fail to apply it unprompted. We release KWBench to shift how frontier models are evaluated on knowledge work, scoring them on whether they recognize the right problem from the situation alone, not only on how well they execute once the problem has been framed for them.
PDF02April 22, 2026