ChatPaper.aiChatPaper

DiagnosticIQ: Un benchmark para la recomendación de acciones de mantenimiento industrial basada en LLM a partir de reglas simbólicas

DiagnosticIQ: A Benchmark for LLM-Based Industrial Maintenance Action Recommendation from Symbolic Rules

May 9, 2026
Autores: Devin Yasith De Silva, Dhaval Patel, Christodoulos Constantinides, Shuxin Lin, Nianjun Zhou, Paul J Adams, Sal Rosato, Nicolas Constantinides, Deborah L. McGuinness, Jayant Kalagnanam
cs.AI

Resumen

La monitorización de activos industriales complejos se basa en reglas simbólicas creadas por ingenieros que se activan según condiciones de sensores y solicitan a los técnicos que realicen acciones correctivas. El cuello de botella no es la detección sino la respuesta: traducir reglas en pasos de mantenimiento requiere conocimiento específico del activo adquirido mediante años de práctica. Investigamos si los LLM pueden servir como apoyo a la decisión para este paso de regla a acción e introducimos , un punto de referencia de 6.690 preguntas de opción múltiple validadas por expertos a partir de 118 pares regla-acción en 16 tipos de activos. Contribuimos (i) un pipeline de simbólico a MCQA que normaliza reglas a Forma Normal Disyuntiva con muestreo de distractores basado en embeddings, (ii) cinco variantes que exploran distintos modos de fallo (Pro, Pert, Verbose, Aug, Rationale), y (iii) un punto de referencia de 29 LLM y 4 líneas base de embeddings. Una evaluación humana (9 profesionales, media 45.0%) confirma que requiere conocimiento especializado más allá de la experiencia operativa. Tres hallazgos destacan. La frontera se ha cerrado: los tres mejores LLM se sitúan dentro de un punto Macro, con el Elo de Bradley-Terry colocando a claude-opus-4-6 30 puntos por encima del siguiente modelo. Sin embargo, \ ,Pro expone fragilidad, ya que todos los modelos pierden entre un 13 y un 60% de precisión relativa bajo expansión de distractores. \ ,Aug expone coincidencia de patrones: bajo inversión de condiciones, los modelos frontera aún seleccionan la respuesta original el 49–63% de las veces. El cuello de botella en la implementación no es la capacidad sino la calibración: los modelos frontera manejan la detección de fallos de estilo plantilla, pero fallan bajo perturbación estructural.
English
Monitoring complex industrial assets relies on engineer-authored symbolic rules that trigger based on sensor conditions and prompt technicians to perform corrective actions. The bottleneck is not detection but response: translating rules into maintenance steps requires asset-specific knowledge gained through years of practice. We investigate whether LLMs can serve as decision support for this rule-to-action step and introduce , a benchmark of 6{,}690 expert-validated multiple-choice questions from 118 rule-action pairs across 16 asset types. We contribute (i) a symbolic-to-MCQA pipeline normalizing rules to Disjunctive Normal Form with embedding-based distractor sampling, (ii) five variants probing distinct failure modes (Pro, Pert, Verbose, Aug, Rationale), and (iii) a benchmark of 29 LLMs and 4 embedding baselines. A human evaluation (9 practitioners, mean 45.0\%) confirms requires specialist knowledge beyond operational experience. Three findings stand out. The frontier has closed: the top three LLMs lie within one Macro point, with Bradley-Terry Elo placing claude-opus-4-6 30 points above the next model. Yet \,Pro exposes brittleness, with every model losing 13--60\% relative accuracy under distractor expansion. \,Aug exposes pattern-matching: under condition inversion, frontier models still select the original answer 49--63\% of the time. The deployment bottleneck is not capability but calibration: frontier models handle template-style fault detection but break under structural perturbation.