DiagnosticIQ : Un benchmark pour la recommandation d'actions de maintenance industrielle basée sur les LLM à partir de règles symboliques

Résumé

La surveillance d’actifs industriels complexes repose sur des règles symboliques rédigées par des ingénieurs, qui se déclenchent en fonction des conditions des capteurs et incitent les techniciens à effectuer des actions correctives. Le goulot d’étranglement n’est pas la détection mais la réponse : traduire les règles en étapes de maintenance nécessite des connaissances spécifiques aux actifs acquises par des années de pratique. Nous étudions si les LLM peuvent servir d’aide à la décision pour cette étape de la règle à l’action et introduisons un benchmark de 6 690 questions à choix multiples validées par des experts, issues de 118 paires règle-action pour 16 types d’actifs. Nous contribuons (i) un pipeline symbolique-vers-MCQA normalisant les règles en Forme Normale Disjonctive avec un échantillonnage de distracteurs basé sur les embeddings, (ii) cinq variantes explorant des modes de défaillance distincts (Pro, Pert, Verbose, Aug, Rationale), et (iii) un benchmark de 29 LLM et 4 baselines d’embeddings. Une évaluation humaine (9 praticiens, moyenne 45,0 %) confirme que cela nécessite des connaissances spécialisées au-delà de l’expérience opérationnelle. Trois résultats se démarquent. La frontière s’est resserrée : les trois meilleurs LLM se situent à moins d’un point Macro l’un de l’autre, avec l’Elo de Bradley-Terry plaçant claude-opus-4-6 30 points au-dessus du modèle suivant. Pourtant, Pro expose la fragilité : chaque modèle perd 13 à 60 % de précision relative lors de l’expansion des distracteurs. Aug expose la recherche de motifs : sous inversion de condition, les modèles de pointe sélectionnent encore la réponse originale dans 49 à 63 % des cas. Le goulet d’étranglement du déploiement n’est pas la capacité mais la calibration : les modèles de pointe gèrent la détection de défauts par template mais échouent sous perturbation structurelle.

English

Monitoring complex industrial assets relies on engineer-authored symbolic rules that trigger based on sensor conditions and prompt technicians to perform corrective actions. The bottleneck is not detection but response: translating rules into maintenance steps requires asset-specific knowledge gained through years of practice. We investigate whether LLMs can serve as decision support for this rule-to-action step and introduce , a benchmark of 6{,}690 expert-validated multiple-choice questions from 118 rule-action pairs across 16 asset types. We contribute (i) a symbolic-to-MCQA pipeline normalizing rules to Disjunctive Normal Form with embedding-based distractor sampling, (ii) five variants probing distinct failure modes (Pro, Pert, Verbose, Aug, Rationale), and (iii) a benchmark of 29 LLMs and 4 embedding baselines. A human evaluation (9 practitioners, mean 45.0\%) confirms requires specialist knowledge beyond operational experience. Three findings stand out. The frontier has closed: the top three LLMs lie within one Macro point, with Bradley-Terry Elo placing claude-opus-4-6 30 points above the next model. Yet \,Pro exposes brittleness, with every model losing 13--60\% relative accuracy under distractor expansion. \,Aug exposes pattern-matching: under condition inversion, frontier models still select the original answer 49--63\% of the time. The deployment bottleneck is not capability but calibration: frontier models handle template-style fault detection but break under structural perturbation.