DiagnosticIQ: Um Benchmark para Recomendação de Ações de Manutenção Industrial Baseada em LLM a partir de Regras Simbólicas

Resumo

Monitorar ativos industriais complexos depende de regras simbólicas elaboradas por engenheiros, que disparam com base em condições de sensores e instruem técnicos a realizar ações corretivas. O gargalo não é a detecção, mas a resposta: traduzir regras em etapas de manutenção exige conhecimento específico dos ativos, adquirido por meio de anos de prática. Investigamos se LLMs podem servir como suporte à decisão nessa etapa de regra para ação e introduzimos [NOME], um benchmark de 6.690 questões de múltipla escolha validadas por especialistas, provenientes de 118 pares regra-ação em 16 tipos de ativos. Contribuímos com: (i) um pipeline simbólico-para-MCQA que normaliza regras para a Forma Normal Disjuntiva, com amostragem de distratores baseada em embeddings; (ii) cinco variantes que investigam modos de falha distintos (Pro, Pert, Verbose, Aug, Rationale); e (iii) um benchmark com 29 LLMs e 4 baselines de embeddings. Uma avaliação humana (9 profissionais, média de 45,0%) confirma que [NOME] exige conhecimento especializado além da experiência operacional. Três descobertas se destacam. A fronteira se fechou: os três principais LLMs estão dentro de um ponto de Macro, com o Bradley-Terry Elo posicionando o claude-opus-4-6 30 pontos acima do modelo seguinte. No entanto, Pro expõe fragilidade: todo modelo perde de 13% a 60% de acurácia relativa sob expansão de distratores. Aug expõe correspondência de padrões: sob inversão de condições, os modelos de fronteira ainda selecionam a resposta original em 49% a 63% das vezes. O gargalo da implantação não é a capacidade, mas a calibração: os modelos de fronteira lidam com detecção de falhas no estilo de modelos prontos, mas quebram sob perturbação estrutural.

English

Monitoring complex industrial assets relies on engineer-authored symbolic rules that trigger based on sensor conditions and prompt technicians to perform corrective actions. The bottleneck is not detection but response: translating rules into maintenance steps requires asset-specific knowledge gained through years of practice. We investigate whether LLMs can serve as decision support for this rule-to-action step and introduce , a benchmark of 6{,}690 expert-validated multiple-choice questions from 118 rule-action pairs across 16 asset types. We contribute (i) a symbolic-to-MCQA pipeline normalizing rules to Disjunctive Normal Form with embedding-based distractor sampling, (ii) five variants probing distinct failure modes (Pro, Pert, Verbose, Aug, Rationale), and (iii) a benchmark of 29 LLMs and 4 embedding baselines. A human evaluation (9 practitioners, mean 45.0\%) confirms requires specialist knowledge beyond operational experience. Three findings stand out. The frontier has closed: the top three LLMs lie within one Macro point, with Bradley-Terry Elo placing claude-opus-4-6 30 points above the next model. Yet \,Pro exposes brittleness, with every model losing 13--60\% relative accuracy under distractor expansion. \,Aug exposes pattern-matching: under condition inversion, frontier models still select the original answer 49--63\% of the time. The deployment bottleneck is not capability but calibration: frontier models handle template-style fault detection but break under structural perturbation.