DiagnosticIQ: бенчмарк для LLM-ориентированной рекомендации действий по промышленному техническому обслуживанию на основе символьных правил

Аннотация

Мониторинг сложных промышленных объектов основан на символьных правилах, созданных инженерами, которые срабатывают при определенных условиях датчиков и дают указания техническим специалистам выполнять корректирующие действия. Узким местом является не обнаружение, а реагирование: преобразование правил в шаги обслуживания требует знаний, специфичных для данного типа оборудования, полученных за годы практики. Мы исследуем, могут ли большие языковые модели (LLM) служить поддержкой принятия решений на этапе перехода от правил к действиям, и представляем набор данных, состоящий из 6 690 проверенных экспертами вопросов с множественным выбором, сформированных из 118 пар «правило-действие» для 16 типов активов. Наш вклад включает: (i) конвейер преобразования символьных правил в формат MCQA (вопросы с множественным выбором), приводящий правила к дизъюнктивной нормальной форме с семплированием дистракторов на основе эмбеддингов; (ii) пять вариантов, исследующих различные типы отказов (Pro, Pert, Verbose, Aug, Rationale); (iii) эталонный тест из 29 LLM и 4 моделей эмбеддингов. Оценка с участием людей (9 практиков, средний результат 45,0%) подтверждает, что этот набор данных требует специализированных знаний, выходящих за рамки операционного опыта. Выделяются три результата. Разрыв сокращается: три лучшие LLM находятся в пределах одного макро-показателя, а рейтинг Брэдли-Терри Эло показывает, что claude-opus-4-6 опережает следующую модель на 30 пунктов. Однако вариант Pro выявляет хрупкость: каждая модель теряет 13–60% относительной точности при расширении набора дистракторов. Вариант Aug выявляет склонность к поиску шаблонов: при инверсии условий ведущие модели по-прежнему выбирают исходный ответ в 49–63% случаев. Узким местом внедрения является не способность, а калибровка: ведущие модели справляются с обнаружением неисправностей по шаблону, но дают сбой при структурных возмущениях.

English

Monitoring complex industrial assets relies on engineer-authored symbolic rules that trigger based on sensor conditions and prompt technicians to perform corrective actions. The bottleneck is not detection but response: translating rules into maintenance steps requires asset-specific knowledge gained through years of practice. We investigate whether LLMs can serve as decision support for this rule-to-action step and introduce , a benchmark of 6{,}690 expert-validated multiple-choice questions from 118 rule-action pairs across 16 asset types. We contribute (i) a symbolic-to-MCQA pipeline normalizing rules to Disjunctive Normal Form with embedding-based distractor sampling, (ii) five variants probing distinct failure modes (Pro, Pert, Verbose, Aug, Rationale), and (iii) a benchmark of 29 LLMs and 4 embedding baselines. A human evaluation (9 practitioners, mean 45.0\%) confirms requires specialist knowledge beyond operational experience. Three findings stand out. The frontier has closed: the top three LLMs lie within one Macro point, with Bradley-Terry Elo placing claude-opus-4-6 30 points above the next model. Yet \,Pro exposes brittleness, with every model losing 13--60\% relative accuracy under distractor expansion. \,Aug exposes pattern-matching: under condition inversion, frontier models still select the original answer 49--63\% of the time. The deployment bottleneck is not capability but calibration: frontier models handle template-style fault detection but break under structural perturbation.