ChatPaper.aiChatPaper

IndustryBench: Исследование границ промышленных знаний больших языковых моделей

IndustryBench: Probing the Industrial Knowledge Boundaries of LLMs

May 11, 2026
Авторы: Songlin Bai, Xintong Wang, Linlin Yu, Bin Chen, Zhiang Xu, Yuyang Sheng, Changtong Zan, Xiaofeng Zhu, Yizhe Zhang, Jiru Li, Mingze Guo, Ling Zou, Yalong Li, Chengfu Huo, Liang Ding
cs.AI

Аннотация

В промышленных закупках ответ LLM полезен только в том случае, если он проходит проверку на соответствие стандартам: рекомендуемый материал должен соответствовать условиям эксплуатации, каждый параметр должен соблюдать регламентированный порог, и ни одна процедура не должна противоречить требованиям безопасности. Частичная правильность может маскировать критически важные для безопасности противоречия, которые редко улавливаются агрегированными бенчмарками LLM. Мы представляем IndustryBench — бенчмарк из 2049 пунктов для вопросно-ответных систем в области промышленных закупок на китайском языке, основанный на китайских национальных стандартах (GB/T) и структурированных записях о промышленных продуктах, организованный по семи аспектам компетенций, десяти отраслевым категориям и уровням сложности, полученным с помощью экспертной панели, с переводами на английский, русский и вьетнамский языки, согласованными с каждым пунктом. Наш конвейер построения отбраковывает 70,3% кандидатов, сгенерированных LLM, на этапе внешней верификации на основе поиска, что калибрует, насколько ненадёжными остаются ответы в области промышленных закупок после фильтрации только с помощью LLM. В нашем оценивании разделены сырая правильность, оцениваемая моделью-судьёй Qwen3-Max, валидированной с каппа_в = 0,798 относительно эксперта в предметной области, и отдельная проверка на нарушения безопасности (НБ) по исходным текстам. На 17 моделях на китайском языке и на пересечении 8 моделей по четырём языкам мы обнаруживаем: (i) лучшая система достигает лишь 2,083 по шкале 0–3, что оставляет значительный запас; (ii) «Стандарты и терминология» является наиболее устойчивой слабостью компетенций и сохраняется после согласованного по пунктам перевода; (iii) расширенное рассуждение снижает скорректированные с учётом безопасности оценки для 12 из 13 моделей, главным образом за счёт внесения в более длинные окончательные ответы неподтверждённых деталей, критически важных для безопасности; и (iv) показатели нарушений безопасности перестраивают таблицу лидеров — GPT-5.4 поднимается с 6-го на 3-е место после корректировки по НБ, в то время как Kimi-k2.5-1T-A32B опускается на семь позиций. Таким образом, для оценки промышленных LLM требуется опирающаяся на исходные источники диагностика с учётом безопасности, а не агрегированная точность. Мы публикуем IndustryBench со всеми подсказками, скриптами оценки и документацией набора данных.
English
In industrial procurement, an LLM answer is useful only if it survives a standards check: recommended material must match operating condition, every parameter must respect a regulated threshold, and no procedure may contradict a safety clause. Partial correctness can mask safety-critical contradictions that aggregate LLM benchmarks rarely capture. We introduce IndustryBench, a 2,049-item benchmark for industrial procurement QA in Chinese, grounded in Chinese national standards (GB/T) and structured industrial product records, organized by seven capability dimensions, ten industry categories, and panel-derived difficulty tiers, with item-aligned English, Russian, and Vietnamese renderings. Our construction pipeline rejects 70.3% of LLM-generated candidates at a search-based external-verification stage, calibrating how unreliable industrial QA remains after LLM-only filtering.Our evaluation decouples raw correctness, scored by a Qwen3-Max judge validated at κ_w = 0.798 against a domain expert, from a separate safety-violation (SV) check against source texts. Across 17 models in Chinese and an 8-model intersection over four languages, we find: (i) the best system reaches only 2.083 on the 0--3 rubric, leaving substantial headroom; (ii) Standards & Terminology is the most persistent capability weakness and survives item-aligned translation; (iii) extended reasoning lowers safety-adjusted scores for 12 of 13 models, primarily by introducing unsupported safety-critical details into longer final answers; and (iv) safety-violation rates reshuffle the leaderboard -- GPT-5.4 climbs from rank 6 to rank 3 after SV adjustment, while Kimi-k2.5-1T-A32B drops seven positions.Industrial LLM evaluation therefore requires source-grounded, safety-aware diagnosis rather than aggregate accuracy. We release IndustryBench with all prompts, scoring scripts, and dataset documentation.
PDF21May 14, 2026