DiagnosticIQ: 심볼릭 규칙 기반 LLM 산업 유지보수 행동 추천을 위한 벤치마크
DiagnosticIQ: A Benchmark for LLM-Based Industrial Maintenance Action Recommendation from Symbolic Rules
May 9, 2026
저자: Devin Yasith De Silva, Dhaval Patel, Christodoulos Constantinides, Shuxin Lin, Nianjun Zhou, Paul J Adams, Sal Rosato, Nicolas Constantinides, Deborah L. McGuinness, Jayant Kalagnanam
cs.AI
초록
복잡한 산업 자산의 모니터링은 공학자가 작성한 기호 규칙에 의존하는데, 이 규칙들은 센서 조건에 따라 작동하여 기술자에게 시정 조치를 수행하도록 지시한다. 병목 지점은 탐지가 아니라 대응에 있다. 즉, 규칙을 유지보수 단계로 변환하려면 수년간의 경험을 통해 습득한 자산별 지식이 필요하다. 본 연구는 LLM이 이러한 규칙-행위 변환 단계에서 의사결정 지원 도구로 활용될 수 있는지 조사하고, 16개 자산 유형에 걸친 118개 규칙-행위 쌍에서 추출한 6,690개의 전문가 검증 다지선다형 문제로 구성된 벤치마크를 소개한다. 주요 기여는 다음과 같다: (i) 기호 형식을 분리곱표준형(Disjunctive Normal Form)으로 정규화하고 임베딩 기반 방해 항목 샘플링을 적용하는 기호-다지선다형(MCQA) 변환 파이프라인, (ii) 서로 다른 오류 유형(Pro, Pert, Verbose, Aug, Rationale)을 탐지하는 다섯 가지 변형, (iii) 29개의 LLM과 4개의 임베딩 기준 모델에 대한 벤치마크 결과. 9명의 실무자를 대상으로 한 인간 평가(평균 45.0%)는 본 벤치마크가 운영 경험 이상의 전문 지식을 요구함을 확인했다. 세 가지 주요 발견점이 도출되었다. 최첨단 모델 간 격차는 좁혀져 상위 3개 LLM이 1 Macro 포인트 이내에 분포하며, Bradley-Terry Elo 점수 기준 claude-opus-4-6이 차순위 모델보다 30점 높게 나타났다. 그러나 Pro 변형에서 취약성이 드러나, 방해 항목 확장 시 모든 모델이 상대 정확도 13~60%를 손실했다. Aug 변형은 패턴 매칭 문제를 노출했는데, 조건 반전 상황에서 최첨단 모델도 원래 정답을 49~63%의 빈도로 선택했다. 배포의 병목은 성능이 아니라 교정(calibration)에 있다. 최첨단 모델은 템플릿 기반 고장 탐지는 처리하지만, 구조적 변형에는 실패한다.
English
Monitoring complex industrial assets relies on engineer-authored symbolic rules that trigger based on sensor conditions and prompt technicians to perform corrective actions. The bottleneck is not detection but response: translating rules into maintenance steps requires asset-specific knowledge gained through years of practice. We investigate whether LLMs can serve as decision support for this rule-to-action step and introduce , a benchmark of 6{,}690 expert-validated multiple-choice questions from 118 rule-action pairs across 16 asset types. We contribute (i) a symbolic-to-MCQA pipeline normalizing rules to Disjunctive Normal Form with embedding-based distractor sampling, (ii) five variants probing distinct failure modes (Pro, Pert, Verbose, Aug, Rationale), and (iii) a benchmark of 29 LLMs and 4 embedding baselines. A human evaluation (9 practitioners, mean 45.0\%) confirms requires specialist knowledge beyond operational experience. Three findings stand out. The frontier has closed: the top three LLMs lie within one Macro point, with Bradley-Terry Elo placing claude-opus-4-6 30 points above the next model. Yet \,Pro exposes brittleness, with every model losing 13--60\% relative accuracy under distractor expansion. \,Aug exposes pattern-matching: under condition inversion, frontier models still select the original answer 49--63\% of the time. The deployment bottleneck is not capability but calibration: frontier models handle template-style fault detection but break under structural perturbation.