IndustryBench: Исследование границ промышленных знаний больших языковых моделей

Аннотация

В промышленных закупках ответ LLM полезен только в том случае, если он проходит проверку на соответствие стандартам: рекомендуемый материал должен соответствовать условиям эксплуатации, каждый параметр должен соблюдать регламентированный порог, и ни одна процедура не должна противоречить требованиям безопасности. Частичная правильность может маскировать критически важные для безопасности противоречия, которые редко улавливаются агрегированными бенчмарками LLM. Мы представляем IndustryBench — бенчмарк из 2049 пунктов для вопросно-ответных систем в области промышленных закупок на китайском языке, основанный на китайских национальных стандартах (GB/T) и структурированных записях о промышленных продуктах, организованный по семи аспектам компетенций, десяти отраслевым категориям и уровням сложности, полученным с помощью экспертной панели, с переводами на английский, русский и вьетнамский языки, согласованными с каждым пунктом. Наш конвейер построения отбраковывает 70,3% кандидатов, сгенерированных LLM, на этапе внешней верификации на основе поиска, что калибрует, насколько ненадёжными остаются ответы в области промышленных закупок после фильтрации только с помощью LLM. В нашем оценивании разделены сырая правильность, оцениваемая моделью-судьёй Qwen3-Max, валидированной с каппа_в = 0,798 относительно эксперта в предметной области, и отдельная проверка на нарушения безопасности (НБ) по исходным текстам. На 17 моделях на китайском языке и на пересечении 8 моделей по четырём языкам мы обнаруживаем: (i) лучшая система достигает лишь 2,083 по шкале 0–3, что оставляет значительный запас; (ii) «Стандарты и терминология» является наиболее устойчивой слабостью компетенций и сохраняется после согласованного по пунктам перевода; (iii) расширенное рассуждение снижает скорректированные с учётом безопасности оценки для 12 из 13 моделей, главным образом за счёт внесения в более длинные окончательные ответы неподтверждённых деталей, критически важных для безопасности; и (iv) показатели нарушений безопасности перестраивают таблицу лидеров — GPT-5.4 поднимается с 6-го на 3-е место после корректировки по НБ, в то время как Kimi-k2.5-1T-A32B опускается на семь позиций. Таким образом, для оценки промышленных LLM требуется опирающаяся на исходные источники диагностика с учётом безопасности, а не агрегированная точность. Мы публикуем IndustryBench со всеми подсказками, скриптами оценки и документацией набора данных.

English

In industrial procurement, an LLM answer is useful only if it survives a standards check: recommended material must match operating condition, every parameter must respect a regulated threshold, and no procedure may contradict a safety clause. Partial correctness can mask safety-critical contradictions that aggregate LLM benchmarks rarely capture. We introduce IndustryBench, a 2,049-item benchmark for industrial procurement QA in Chinese, grounded in Chinese national standards (GB/T) and structured industrial product records, organized by seven capability dimensions, ten industry categories, and panel-derived difficulty tiers, with item-aligned English, Russian, and Vietnamese renderings. Our construction pipeline rejects 70.3% of LLM-generated candidates at a search-based external-verification stage, calibrating how unreliable industrial QA remains after LLM-only filtering.Our evaluation decouples raw correctness, scored by a Qwen3-Max judge validated at κ_w = 0.798 against a domain expert, from a separate safety-violation (SV) check against source texts. Across 17 models in Chinese and an 8-model intersection over four languages, we find: (i) the best system reaches only 2.083 on the 0--3 rubric, leaving substantial headroom; (ii) Standards & Terminology is the most persistent capability weakness and survives item-aligned translation; (iii) extended reasoning lowers safety-adjusted scores for 12 of 13 models, primarily by introducing unsupported safety-critical details into longer final answers; and (iv) safety-violation rates reshuffle the leaderboard -- GPT-5.4 climbs from rank 6 to rank 3 after SV adjustment, while Kimi-k2.5-1T-A32B drops seven positions.Industrial LLM evaluation therefore requires source-grounded, safety-aware diagnosis rather than aggregate accuracy. We release IndustryBench with all prompts, scoring scripts, and dataset documentation.

IndustryBench: Исследование границ промышленных знаний больших языковых моделей

IndustryBench: Probing the Industrial Knowledge Boundaries of LLMs

Аннотация

Support