IndustryBench: Untersuchung der Grenzen des industriellen Wissens von LLMs

Zusammenfassung

Im industriellen Beschaffungswesen ist eine LLM-Antwort nur dann nützlich, wenn sie eine Normenprüfung übersteht: Das empfohlene Material muss den Betriebsbedingungen entsprechen, jeder Parameter muss einen geregelten Grenzwert einhalten, und kein Verfahren darf gegen eine Sicherheitsklausel verstoßen. Teilweise Korrektheit kann sicherheitskritische Widersprüche verschleiern, die von aggregierten LLM-Benchmarks selten erfasst werden. Wir stellen IndustryBench vor, einen Benchmark mit 2.049 Elementen für die Qualitätssicherung im industriellen Beschaffungswesen auf Chinesisch, basierend auf chinesischen nationalen Normen (GB/T) und strukturierten industriellen Produktdatensätzen, gegliedert nach sieben Fähigkeitsdimensionen, zehn Industriekategorien und aus Expertengremien abgeleiteten Schwierigkeitsstufen, mit sprachlich angepassten englischen, russischen und vietnamesischen Übersetzungen. Unsere Konstruktionspipeline verwirft 70,3 % der von LLM generierten Kandidaten in einer suchbasierten externen Verifikationsphase und kalibriert damit, wie unzuverlässig industrielle QA nach einer reinen LLM-Filterung bleibt. Unsere Evaluierung trennt die rohe Korrektheit, bewertet durch einen Qwen3-Max-Richter mit einer Validierung von κ_w = 0,798 gegenüber einem Fachexperten, von einer separaten Prüfung auf Sicherheitsverstöße (SV) gegen die Quelltexte. Über 17 Modelle auf Chinesisch und eine Schnittmenge von 8 Modellen über vier Sprachen hinweg stellen wir fest: (i) Das beste System erreicht nur 2,083 auf der 0–3-Bewertungsmatrix, was erheblichen Spielraum lässt; (ii) Standards & Terminologie stellt die beständigste Fähigkeitsschwäche dar und bleibt auch bei sprachlich angepassten Übersetzungen bestehen; (iii) erweitertes Denken senkt die sicherheitsbereinigten Bewertungen für 12 von 13 Modellen, hauptsächlich durch die Einführung unbegründeter sicherheitskritischer Details in längere endgültige Antworten; und (iv) die Raten von Sicherheitsverstößen mischen die Rangliste neu – GPT-5.4 steigt von Rang 6 auf Rang 3 nach der SV-Anpassung, während Kimi-k2.5-1T-A32B sieben Plätze fällt. Die industrielle LLM-Evaluierung erfordert daher eine quellengestützte, sicherheitsbewusste Diagnose anstelle einer aggregierten Genauigkeit. Wir veröffentlichen IndustryBench mit allen Prompts, Bewertungsskripten und der Datensatzdokumentation.

English

In industrial procurement, an LLM answer is useful only if it survives a standards check: recommended material must match operating condition, every parameter must respect a regulated threshold, and no procedure may contradict a safety clause. Partial correctness can mask safety-critical contradictions that aggregate LLM benchmarks rarely capture. We introduce IndustryBench, a 2,049-item benchmark for industrial procurement QA in Chinese, grounded in Chinese national standards (GB/T) and structured industrial product records, organized by seven capability dimensions, ten industry categories, and panel-derived difficulty tiers, with item-aligned English, Russian, and Vietnamese renderings. Our construction pipeline rejects 70.3% of LLM-generated candidates at a search-based external-verification stage, calibrating how unreliable industrial QA remains after LLM-only filtering.Our evaluation decouples raw correctness, scored by a Qwen3-Max judge validated at κ_w = 0.798 against a domain expert, from a separate safety-violation (SV) check against source texts. Across 17 models in Chinese and an 8-model intersection over four languages, we find: (i) the best system reaches only 2.083 on the 0--3 rubric, leaving substantial headroom; (ii) Standards & Terminology is the most persistent capability weakness and survives item-aligned translation; (iii) extended reasoning lowers safety-adjusted scores for 12 of 13 models, primarily by introducing unsupported safety-critical details into longer final answers; and (iv) safety-violation rates reshuffle the leaderboard -- GPT-5.4 climbs from rank 6 to rank 3 after SV adjustment, while Kimi-k2.5-1T-A32B drops seven positions.Industrial LLM evaluation therefore requires source-grounded, safety-aware diagnosis rather than aggregate accuracy. We release IndustryBench with all prompts, scoring scripts, and dataset documentation.

IndustryBench: Untersuchung der Grenzen des industriellen Wissens von LLMs

IndustryBench: Probing the Industrial Knowledge Boundaries of LLMs

Zusammenfassung

Support