ChatPaper.aiChatPaper

KWBench: Het meten van spontane probleemherkenning in kennismanagement

KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

April 17, 2026
Auteurs: Ankit Maloo
cs.AI

Samenvatting

Wij introduceren de eerste versie van KWBench (Knowledge Work Bench), een benchmark voor ongevraagde probleemherkenning in grote taalmodellen: kan een LLM een professioneel scenario identificeren voordat het probeert het op te lossen? Bestaande toonaangevende benchmarks zijn verzadigd, en de meeste evaluaties van kenniswerk tot nu toe komen neer op extractie of taakvoltooiing tegen een specificatie. KWBench richt zich op de stap daarvoor: het herkennen van de onderliggende structuur van de situatie uitsluitend vanuit ruwe inputs. De benchmark bevat 223 taken, afkomstig van praktijkmensen uit onder meer acquisities, contractonderhandelingen, klinische farmacie, organisatiepolitiek, fraudeanalyse en prikkelontwerp. Elke taak codeert een formeel speltheoretisch patroon (principal-agent conflict, signalering, falen van mechanism design, strategische weglating, coalitionele dynamiek, strategische interdependentie) en bevat gestructureerde grondtruth die de expertinterpretatie van de situatie en de verwachte faalwijzen vastlegt. Modellen ontvangen ruwe data en een taakprompt zonder enige indicatie van het probleemtype. De beoordeling verloopt volgens een drielaags rubric, afgeschermd door een verplichte conjunctieve check. Verplichte criteria coderen de voorspelde verkeerde aanpakken. Wij evalueren 16 modellen. Het beste model slaagt voor 27,9% van de taken. De top twee modellen zijn het slechts over 31,7% van hun geslaagde taken eens. Binnen de top 8 worden 44 taken door precies één model opgelost; routering over de top 8 dekt 50,7% van de benchmark, bijna het dubbele van het beste individuele model. Voorwaardelijk op slagen, convergeren de kwaliteitsscores (ongeveer 83% over de modellen heen); onvoorwaardelijke scores doen dat niet. Dezelfde modellen articuleren het relevante speltheoretische concept correct wanneer ernaar gevraagd, maar slagen er niet in het ongevraagd toe te passen. Wij geven KWBench vrij om de wijze waarop toonaangevende modellen worden geëvalueerd op kenniswerk te verleggen: we beoordelen ze op basis van of ze het juiste probleem herkennen vanuit de situatie alleen, niet alleen op hoe goed ze presteren zodra het probleem voor hen is gekaderd.
English
We introduce the first version of KWBench (Knowledge Work Bench), a benchmark for unprompted problem recognition in large language models: can an LLM identify a professional scenario before attempting to solve it. Existing frontier benchmarks have saturated, and most knowledge-work evaluations to date reduce to extraction or task completion against a specification. KWBench targets the step before that: recognizing the governing structure of the situation from raw inputs alone. The benchmark contains 223 tasks sourced from practitioners across acquisitions, contract negotiations, clinical pharmacy, organizational politics, fraud analysis, and incentive design. Each task encodes a formal game-theoretic pattern (principal-agent conflict, signaling, mechanism design failure, strategic omission, coalitional dynamics, strategic interdependence) and carries structured ground truth recording the expert reading of the situation and the anticipated failure modes. Models receive raw data and a task prompt with no indication of problem type. Scoring is a three-tier rubric gated by a mandatory conjunctive check. Mandatory criteria encode the predicted wrong paths. We evaluate 16 models. The best model passes on 27.9% of tasks. The top two models agree on only 31.7% of their passes. Among the top 8, 44 tasks are solved by exactly one model; routing across the top 8 covers 50.7% of the benchmark, nearly double the best single model. Conditional on passing, quality scores converge (approx 83% across models); unconditional scores do not. Same models articulate the relevant game-theoretic concept correctly when asked, then fail to apply it unprompted. We release KWBench to shift how frontier models are evaluated on knowledge work, scoring them on whether they recognize the right problem from the situation alone, not only on how well they execute once the problem has been framed for them.
PDF02April 22, 2026