DiagnosticIQ: Ein Benchmark für LLM-basierte Empfehlung von industriellen Wartungsmaßnahmen aus symbolischen Regeln

Zusammenfassung

Die Überwachung komplexer Industrieanlagen stützt sich auf von Ingenieuren verfasste symbolische Regeln, die bei bestimmten Sensorzuständen ausgelöst werden und Techniker zu Korrekturmaßnahmen auffordern. Der Engpass liegt nicht in der Erkennung, sondern in der Reaktion: Die Umsetzung von Regeln in Wartungsschritte erfordert anlagenspezifisches Wissen, das erst durch jahrelange Praxis erworben wird. Wir untersuchen, ob große Sprachmodelle (LLMs) als Entscheidungsunterstützung für diesen Schritt von der Regel zur Aktion dienen können, und stellen einen Benchmark mit 6.690 fachlich validierten Multiple-Choice-Fragen aus 118 Regel-Aktions-Paaren über 16 Anlagentypen vor. Wir liefern (i) eine Pipeline zur Umwandlung symbolischer Regeln in MCQA-Fragen, die Regeln in disjunktive Normalform überführt und eine embeddingsbasierte Distraktorauswahl verwendet, (ii) fünf Varianten, die verschiedene Fehlermodi untersuchen (Pro, Pert, Verbose, Aug, Rationale), sowie (iii) einen Benchmark von 29 LLMs und vier Embedding-Baselines. Eine menschliche Bewertung (9 Praktiker, Mittelwert 45,0 %) bestätigt, dass der Benchmark spezialisiertes Wissen über die operative Erfahrung hinaus erfordert. Drei Ergebnisse stechen hervor. Die Spitzengruppe hat sich zusammengeschlossen: Die drei besten LLMs liegen innerhalb eines Makropunkts, wobei Bradley-Terry Elo claude-opus-4-6 30 Punkte über dem nächsten Modell platziert. Doch Pro offenbart eine Anfälligkeit: Jedes Modell verliert unter Distraktor-Erweiterung 13–60 % relative Genauigkeit. Aug deckt Mustererkennung auf: Bei Bedingungsumkehrung wählen die Spitzenmodelle in 49–63 % der Fälle immer noch die ursprüngliche Antwort. Der Engpass bei der Bereitstellung ist nicht die Leistungsfähigkeit, sondern die Kalibrierung: Spitzenmodelle beherrschen die Fehlererkennung in Vorlagenform, brechen jedoch unter strukturellen Störungen ein.

English

Monitoring complex industrial assets relies on engineer-authored symbolic rules that trigger based on sensor conditions and prompt technicians to perform corrective actions. The bottleneck is not detection but response: translating rules into maintenance steps requires asset-specific knowledge gained through years of practice. We investigate whether LLMs can serve as decision support for this rule-to-action step and introduce , a benchmark of 6{,}690 expert-validated multiple-choice questions from 118 rule-action pairs across 16 asset types. We contribute (i) a symbolic-to-MCQA pipeline normalizing rules to Disjunctive Normal Form with embedding-based distractor sampling, (ii) five variants probing distinct failure modes (Pro, Pert, Verbose, Aug, Rationale), and (iii) a benchmark of 29 LLMs and 4 embedding baselines. A human evaluation (9 practitioners, mean 45.0\%) confirms requires specialist knowledge beyond operational experience. Three findings stand out. The frontier has closed: the top three LLMs lie within one Macro point, with Bradley-Terry Elo placing claude-opus-4-6 30 points above the next model. Yet \,Pro exposes brittleness, with every model losing 13--60\% relative accuracy under distractor expansion. \,Aug exposes pattern-matching: under condition inversion, frontier models still select the original answer 49--63\% of the time. The deployment bottleneck is not capability but calibration: frontier models handle template-style fault detection but break under structural perturbation.