KWBench: Medición del Reconocimiento No Solicitado de Problemas en el Trabajo del Conocimiento

Resumen

Presentamos la primera versión de KWBench (Knowledge Work Bench), un benchmark para evaluar el reconocimiento no solicitado de problemas en modelos de lenguaje grandes: ¿puede un LLM identificar un escenario profesional antes de intentar resolverlo? Los benchmarks de vanguardia existentes han alcanzado saturación, y la mayoría de las evaluaciones de trabajo del conocimiento hasta la fecha se reducen a extracción o finalización de tareas contra una especificación. KWBench apunta al paso previo: reconocer la estructura rectora de la situación únicamente a partir de entradas en bruto. El benchmark contiene 223 tareas obtenidas de profesionales en áreas como adquisiciones, negociaciones contractuales, farmacia clínica, política organizacional, análisis de fraude y diseño de incentivos. Cada tarea codifica un patrón formal de teoría de juegos (conflicto principal-agente, señalización, fallo de diseño de mecanismos, omisión estratégica, dinámicas coalicionales, interdependencia estratégica) e incluye una verdad de referencia estructurada que registra la interpretación experta de la situación y los modos de fallo anticipados. Los modelos reciben datos en bruto y un enunciado de tarea sin indicación del tipo de problema. La puntuación sigue una rúbrica de tres niveles sujeta a una verificación conjuntiva obligatoria. Los criterios obligatorios codifican las vías de solución erróneas previstas. Evaluamos 16 modelos. El mejor modelo supera el 27.9% de las tareas. Los dos mejores modelos coinciden solo en el 31.7% de sus aciertos. Entre los 8 mejores, 44 tareas son resueltas por exactamente un modelo; la distribución entre los 8 principales cubre el 50.7% del benchmark, casi el doble que el mejor modelo individual. Condicionado a superar la tarea, las puntuaciones de calidad convergen (aprox. 83% entre modelos); las puntuaciones incondicionales no lo hacen. Los mismos modelos articulan correctamente el concepto de teoría de juegos relevante cuando se les pregunta, pero fallan en aplicarlo sin indicación previa. Publicamos KWBench para cambiar cómo se evalúan los modelos de vanguardia en trabajo del conocimiento, valorándolos según si reconocen el problema correcto solo a partir de la situación, no solo por su ejecución una vez que el problema ha sido enmarcado para ellos.

English

We introduce the first version of KWBench (Knowledge Work Bench), a benchmark for unprompted problem recognition in large language models: can an LLM identify a professional scenario before attempting to solve it. Existing frontier benchmarks have saturated, and most knowledge-work evaluations to date reduce to extraction or task completion against a specification. KWBench targets the step before that: recognizing the governing structure of the situation from raw inputs alone. The benchmark contains 223 tasks sourced from practitioners across acquisitions, contract negotiations, clinical pharmacy, organizational politics, fraud analysis, and incentive design. Each task encodes a formal game-theoretic pattern (principal-agent conflict, signaling, mechanism design failure, strategic omission, coalitional dynamics, strategic interdependence) and carries structured ground truth recording the expert reading of the situation and the anticipated failure modes. Models receive raw data and a task prompt with no indication of problem type. Scoring is a three-tier rubric gated by a mandatory conjunctive check. Mandatory criteria encode the predicted wrong paths. We evaluate 16 models. The best model passes on 27.9% of tasks. The top two models agree on only 31.7% of their passes. Among the top 8, 44 tasks are solved by exactly one model; routing across the top 8 covers 50.7% of the benchmark, nearly double the best single model. Conditional on passing, quality scores converge (approx 83% across models); unconditional scores do not. Same models articulate the relevant game-theoretic concept correctly when asked, then fail to apply it unprompted. We release KWBench to shift how frontier models are evaluated on knowledge work, scoring them on whether they recognize the right problem from the situation alone, not only on how well they execute once the problem has been framed for them.

KWBench: Medición del Reconocimiento No Solicitado de Problemas en el Trabajo del Conocimiento

KWBench: Measuring Unprompted Problem Recognition in Knowledge Work

Resumen

Support