IndustryBench : Sonder les limites des connaissances industrielles des LLMs
IndustryBench: Probing the Industrial Knowledge Boundaries of LLMs
May 11, 2026
Auteurs: Songlin Bai, Xintong Wang, Linlin Yu, Bin Chen, Zhiang Xu, Yuyang Sheng, Changtong Zan, Xiaofeng Zhu, Yizhe Zhang, Jiru Li, Mingze Guo, Ling Zou, Yalong Li, Chengfu Huo, Liang Ding
cs.AI
Résumé
Dans les achats industriels, une réponse d’un LLM n’est utile que si elle résiste à un contrôle de conformité aux normes : le matériau recommandé doit correspondre aux conditions d’exploitation, chaque paramètre doit respecter un seuil réglementaire, et aucune procédure ne peut contredire une clause de sécurité. Une exactitude partielle peut masquer des contradictions critiques pour la sécurité que les benchmarks agrégés des LLM capturent rarement. Nous présentons IndustryBench, un benchmark de 2 049 éléments pour le QA en achats industriels en chinois, basé sur les normes nationales chinoises (GB/T) et des enregistrements structurés de produits industriels, organisé selon sept dimensions de capacités, dix catégories industrielles et des niveaux de difficulté dérivés d’un panel, avec des versions alignées en anglais, russe et vietnamien. Notre pipeline de construction rejette 70,3 % des candidats générés par LLM lors d’une étape de vérification externe basée sur la recherche, calibrant ainsi le degré de fiabilité encore faible du QA industriel après un filtrage uniquement par LLM.
Notre évaluation dissocie l’exactitude brute, notée par un juge Qwen3-Max validé à κ_w = 0,798 par rapport à un expert du domaine, d’un contrôle séparé des violations de sécurité (SV) effectué sur les textes sources. Sur 17 modèles en chinois et une intersection de 8 modèles sur quatre langues, nous constatons : (i) le meilleur système n’atteint que 2,083 sur l’échelle de 0 à 3, laissant une marge substantielle ; (ii) Normes & Terminologie est la faiblesse de capacité la plus persistante et subsiste après la traduction alignée ; (iii) un raisonnement étendu abaisse les scores ajustés à la sécurité pour 12 des 13 modèles, principalement en introduisant des détails critiques non étayés dans les réponses finales plus longues ; et (iv) les taux de violation de sécurité remanient le classement — GPT-5.4 passe du rang 6 au rang 3 après ajustement SV, tandis que Kimi-k2.5-1T-A32B chute de sept positions. L’évaluation industrielle des LLM nécessite donc un diagnostic ancré dans les sources et conscient de la sécurité, plutôt qu’une exactitude agrégée. Nous publions IndustryBench avec tous les prompts, les scripts de notation et la documentation du jeu de données.
English
In industrial procurement, an LLM answer is useful only if it survives a standards check: recommended material must match operating condition, every parameter must respect a regulated threshold, and no procedure may contradict a safety clause. Partial correctness can mask safety-critical contradictions that aggregate LLM benchmarks rarely capture. We introduce IndustryBench, a 2,049-item benchmark for industrial procurement QA in Chinese, grounded in Chinese national standards (GB/T) and structured industrial product records, organized by seven capability dimensions, ten industry categories, and panel-derived difficulty tiers, with item-aligned English, Russian, and Vietnamese renderings. Our construction pipeline rejects 70.3% of LLM-generated candidates at a search-based external-verification stage, calibrating how unreliable industrial QA remains after LLM-only filtering.Our evaluation decouples raw correctness, scored by a Qwen3-Max judge validated at κ_w = 0.798 against a domain expert, from a separate safety-violation (SV) check against source texts. Across 17 models in Chinese and an 8-model intersection over four languages, we find: (i) the best system reaches only 2.083 on the 0--3 rubric, leaving substantial headroom; (ii) Standards & Terminology is the most persistent capability weakness and survives item-aligned translation; (iii) extended reasoning lowers safety-adjusted scores for 12 of 13 models, primarily by introducing unsupported safety-critical details into longer final answers; and (iv) safety-violation rates reshuffle the leaderboard -- GPT-5.4 climbs from rank 6 to rank 3 after SV adjustment, while Kimi-k2.5-1T-A32B drops seven positions.Industrial LLM evaluation therefore requires source-grounded, safety-aware diagnosis rather than aggregate accuracy. We release IndustryBench with all prompts, scoring scripts, and dataset documentation.