DiagnosticIQ: Un benchmark para la recomendación de acciones de mantenimiento industrial basada en LLM a partir de reglas simbólicas

Resumen

La monitorización de activos industriales complejos se basa en reglas simbólicas creadas por ingenieros que se activan según condiciones de sensores y solicitan a los técnicos que realicen acciones correctivas. El cuello de botella no es la detección sino la respuesta: traducir reglas en pasos de mantenimiento requiere conocimiento específico del activo adquirido mediante años de práctica. Investigamos si los LLM pueden servir como apoyo a la decisión para este paso de regla a acción e introducimos , un punto de referencia de 6.690 preguntas de opción múltiple validadas por expertos a partir de 118 pares regla-acción en 16 tipos de activos. Contribuimos (i) un pipeline de simbólico a MCQA que normaliza reglas a Forma Normal Disyuntiva con muestreo de distractores basado en embeddings, (ii) cinco variantes que exploran distintos modos de fallo (Pro, Pert, Verbose, Aug, Rationale), y (iii) un punto de referencia de 29 LLM y 4 líneas base de embeddings. Una evaluación humana (9 profesionales, media 45.0%) confirma que requiere conocimiento especializado más allá de la experiencia operativa. Tres hallazgos destacan. La frontera se ha cerrado: los tres mejores LLM se sitúan dentro de un punto Macro, con el Elo de Bradley-Terry colocando a claude-opus-4-6 30 puntos por encima del siguiente modelo. Sin embargo, \ ,Pro expone fragilidad, ya que todos los modelos pierden entre un 13 y un 60% de precisión relativa bajo expansión de distractores. \ ,Aug expone coincidencia de patrones: bajo inversión de condiciones, los modelos frontera aún seleccionan la respuesta original el 49–63% de las veces. El cuello de botella en la implementación no es la capacidad sino la calibración: los modelos frontera manejan la detección de fallos de estilo plantilla, pero fallan bajo perturbación estructural.

English

Monitoring complex industrial assets relies on engineer-authored symbolic rules that trigger based on sensor conditions and prompt technicians to perform corrective actions. The bottleneck is not detection but response: translating rules into maintenance steps requires asset-specific knowledge gained through years of practice. We investigate whether LLMs can serve as decision support for this rule-to-action step and introduce , a benchmark of 6{,}690 expert-validated multiple-choice questions from 118 rule-action pairs across 16 asset types. We contribute (i) a symbolic-to-MCQA pipeline normalizing rules to Disjunctive Normal Form with embedding-based distractor sampling, (ii) five variants probing distinct failure modes (Pro, Pert, Verbose, Aug, Rationale), and (iii) a benchmark of 29 LLMs and 4 embedding baselines. A human evaluation (9 practitioners, mean 45.0\%) confirms requires specialist knowledge beyond operational experience. Three findings stand out. The frontier has closed: the top three LLMs lie within one Macro point, with Bradley-Terry Elo placing claude-opus-4-6 30 points above the next model. Yet \,Pro exposes brittleness, with every model losing 13--60\% relative accuracy under distractor expansion. \,Aug exposes pattern-matching: under condition inversion, frontier models still select the original answer 49--63\% of the time. The deployment bottleneck is not capability but calibration: frontier models handle template-style fault detection but break under structural perturbation.