KWBench: Misurare il Riconoscimento Spontaneo dei Problemi nel Lavoro della Conoscenza

Abstract

Introduciamo la prima versione di KWBench (Knowledge Work Bench), un benchmark per il riconoscimento non sollecitato di problemi nei modelli linguistici di grandi dimensioni: può un LLM identificare uno scenario professionale prima di tentare di risolverlo? I benchmark all'avanguardia esistenti hanno raggiunto la saturazione, e la maggior parte delle valutazioni sul lavoro intellettuale finora si riducono all'estrazione o al completamento di compiti rispetto a una specifica. KWBench mira alla fase precedente: riconoscere la struttura governativa della situazione partendo esclusivamente da input grezzi. Il benchmark contiene 223 compiti provenienti da professionisti in ambiti come acquisizioni, trattative contrattuali, farmacia clinica, politica aziendale, analisi antifrode e progettazione di incentivi. Ogni compito codifica uno schema formale di teoria dei giochi (conflitto principale-agente, segnalazione, fallimento del meccanismo di progettazione, omissione strategica, dinamiche coalizionali, interdipendenza strategica) e include una verità di base strutturata che registra l'interpretazione esperta della situazione e le modalità di fallimento previste. I modelli ricevono dati grezzi e un prompt di attività senza alcuna indicazione sul tipo di problema. La valutazione segue una rubrica a tre livelli vincolata da un controllo congiuntivo obbligatorio. I criteri obbligatori codificano i percorsi errati previsti. Abbiamo valutato 16 modelli. Il modello migliore supera il 27,9% dei compiti. I due migliori modelli concordano solo sul 31,7% dei loro superamenti. Tra i primi 8, 44 compiti sono risolti da esattamente un modello; l'instradamento attraverso i primi 8 copre il 50,7% del benchmark, quasi il doppio del miglior singolo modello. A condizione di superare il test, i punteggi di qualità convergono (circa l'83% tra i modelli); i punteggi incondizionati no. Gli stessi modelli articolano correttamente il concetto di teoria dei giochi rilevante quando richiesto, per poi non applicarlo senza sollecitazione. Rilasciamo KWBench per cambiare il modo in cui i modelli all'avanguardia vengono valutati sul lavoro intellettuale, giudicandoli in base a se riconoscono il problema corretto dalla sola situazione, non solo su quanto bene eseguono una volta che il problema è stato inquadrato per loro.

English

We introduce the first version of KWBench (Knowledge Work Bench), a benchmark for unprompted problem recognition in large language models: can an LLM identify a professional scenario before attempting to solve it. Existing frontier benchmarks have saturated, and most knowledge-work evaluations to date reduce to extraction or task completion against a specification. KWBench targets the step before that: recognizing the governing structure of the situation from raw inputs alone. The benchmark contains 223 tasks sourced from practitioners across acquisitions, contract negotiations, clinical pharmacy, organizational politics, fraud analysis, and incentive design. Each task encodes a formal game-theoretic pattern (principal-agent conflict, signaling, mechanism design failure, strategic omission, coalitional dynamics, strategic interdependence) and carries structured ground truth recording the expert reading of the situation and the anticipated failure modes. Models receive raw data and a task prompt with no indication of problem type. Scoring is a three-tier rubric gated by a mandatory conjunctive check. Mandatory criteria encode the predicted wrong paths. We evaluate 16 models. The best model passes on 27.9% of tasks. The top two models agree on only 31.7% of their passes. Among the top 8, 44 tasks are solved by exactly one model; routing across the top 8 covers 50.7% of the benchmark, nearly double the best single model. Conditional on passing, quality scores converge (approx 83% across models); unconditional scores do not. Same models articulate the relevant game-theoretic concept correctly when asked, then fail to apply it unprompted. We release KWBench to shift how frontier models are evaluated on knowledge work, scoring them on whether they recognize the right problem from the situation alone, not only on how well they execute once the problem has been framed for them.

KWBench: Misurare il Riconoscimento Spontaneo dei Problemi nel Lavoro della Conoscenza

KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

Abstract

Support