KWBench: Messung unaufgeforderten Problembewusstseins in der Wissensarbeit

Zusammenfassung

Wir stellen die erste Version von KWBench (Knowledge Work Bench) vor, einen Benchmark für die unaufgeforderte Problemerkennung in großen Sprachmodellen: Kann ein LLM ein berufliches Szenario identifizieren, bevor es versucht, es zu lösen? Bestehende Spitzen-Benchmarks sind gesättigt, und die meisten Bewertungen von Wissensarbeit reduzieren sich bisher auf Extraktion oder Aufgabenausführung anhand einer Spezifikation. KWBench zielt auf den Schritt davor ab: die zugrundeliegende Struktur einer Situation allein aus Rohdaten zu erkennen. Der Benchmark umfasst 223 Aufgaben, die von Praktikern aus den Bereichen Unternehmensakquisitionen, Vertragsverhandlungen, klinische Pharmazie, organisatorische Politik, Betrugsanalyse und Anreizgestaltung stammen. Jede Aufgabe kodiert ein formales spieltheoretisches Muster (Prinzipal-Agent-Konflikt, Signalisierung, Mechanismus-Design-Fehler, strategisches Auslassen, koalitionäre Dynamiken, strategische Interdependenz) und enthält strukturierte Ground-Truth-Daten, die die Experteninterpretation der Situation sowie die erwarteten Fehlermodi dokumentieren. Die Modelle erhalten Rohdaten und eine Aufgabenaufforderung ohne Hinweis auf den Problemtyp. Die Bewertung erfolgt nach einem dreistufigen Bewertungsschema, das durch eine obligatorische konjunktive Prüfung freigeschaltet wird. Die obligatorischen Kriterien kodieren die vorhergesagten falschen Lösungswege. Wir evaluieren 16 Modelle. Das beste Modell besteht bei 27,9 % der Aufgaben. Die beiden besten Modelle stimmen nur bei 31,7 % ihrer bestandenen Aufgaben überein. Unter den Top-8-Modellen werden 44 Aufgaben von genau einem Modell gelöst; ein Routing über die Top-8-Modelle abdeckt 50,7 % des Benchmarks, fast doppelt so viel wie das beste Einzelmodell. Unter der Bedingung, dass die Aufgabe bestanden wird, konvergieren die Qualitätsbewertungen (ca. 83 % über alle Modelle); die unbedingten Bewertungen tun dies nicht. Dieselben Modelle artikulieren das relevante spieltheoretische Konzept korrekt, wenn danach gefragt wird, scheitern aber daran, es unaufgefordert anzuwenden. Wir veröffentlichen KWBench, um zu verändern, wie Spitzenmodelle in Bezug auf Wissensarbeit evaluiert werden: Sie sollen danach bewertet werden, ob sie das richtige Problem allein aus der Situation erkennen, und nicht nur danach, wie gut sie eine Aufgabe lösen, nachdem das Problem für sie formuliert wurde.

English

We introduce the first version of KWBench (Knowledge Work Bench), a benchmark for unprompted problem recognition in large language models: can an LLM identify a professional scenario before attempting to solve it. Existing frontier benchmarks have saturated, and most knowledge-work evaluations to date reduce to extraction or task completion against a specification. KWBench targets the step before that: recognizing the governing structure of the situation from raw inputs alone. The benchmark contains 223 tasks sourced from practitioners across acquisitions, contract negotiations, clinical pharmacy, organizational politics, fraud analysis, and incentive design. Each task encodes a formal game-theoretic pattern (principal-agent conflict, signaling, mechanism design failure, strategic omission, coalitional dynamics, strategic interdependence) and carries structured ground truth recording the expert reading of the situation and the anticipated failure modes. Models receive raw data and a task prompt with no indication of problem type. Scoring is a three-tier rubric gated by a mandatory conjunctive check. Mandatory criteria encode the predicted wrong paths. We evaluate 16 models. The best model passes on 27.9% of tasks. The top two models agree on only 31.7% of their passes. Among the top 8, 44 tasks are solved by exactly one model; routing across the top 8 covers 50.7% of the benchmark, nearly double the best single model. Conditional on passing, quality scores converge (approx 83% across models); unconditional scores do not. Same models articulate the relevant game-theoretic concept correctly when asked, then fail to apply it unprompted. We release KWBench to shift how frontier models are evaluated on knowledge work, scoring them on whether they recognize the right problem from the situation alone, not only on how well they execute once the problem has been framed for them.

KWBench: Messung unaufgeforderten Problembewusstseins in der Wissensarbeit

KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

Zusammenfassung

Support