IndustryBench: Sondeando los Límites del Conocimiento Industrial de los LLMs

Resumen

En las adquisiciones industriales, una respuesta de un LLM solo es útil si supera una verificación de normas: el material recomendado debe coincidir con las condiciones de operación, cada parámetro debe respetar un umbral regulado, y ningún procedimiento puede contradecir una cláusula de seguridad. La corrección parcial puede ocultar contradicciones críticas para la seguridad que los benchmarks agregados de LLM rara vez capturan. Presentamos IndustryBench, un benchmark de 2049 elementos para preguntas y respuestas (QA) en adquisiciones industriales en chino, fundamentado en estándares nacionales chinos (GB/T) y registros estructurados de productos industriales, organizado en siete dimensiones de capacidad, diez categorías industriales y niveles de dificultad derivados de paneles de expertos, con versiones en inglés, ruso y vietnamita alineadas por elemento. Nuestro pipeline de construcción rechaza el 70.3% de los candidatos generados por LLM en una etapa de verificación externa basada en búsqueda, calibrando cuán poco fiable sigue siendo el QA industrial tras un filtrado exclusivo con LLM. Nuestra evaluación separa la corrección bruta, puntuada por un juez Qwen3-Max validado con κ_w = 0.798 frente a un experto en el dominio, de una verificación independiente de violaciones de seguridad (VS) contra los textos fuente. En 17 modelos en chino y una intersección de 8 modelos en cuatro idiomas, encontramos: (i) el mejor sistema alcanza solo 2.083 en la rúbrica 0–3, dejando un margen de mejora sustancial; (ii) Normas y Terminología es la debilidad de capacidad más persistente y sobrevive a la traducción alineada por elemento; (iii) el razonamiento extendido reduce las puntuaciones ajustadas por seguridad para 12 de 13 modelos, principalmente al introducir detalles críticos de seguridad no respaldados en respuestas finales más largas; y (iv) las tasas de violación de seguridad reordenan la tabla de clasificación — GPT-5.4 asciende del puesto 6 al 3 tras el ajuste por VS, mientras que Kimi-k2.5-1T-A32B cae siete posiciones. Por lo tanto, la evaluación de LLM industriales requiere un diagnóstico fundamentado en las fuentes y consciente de la seguridad, en lugar de una precisión agregada. Publicamos IndustryBench con todas las indicaciones, scripts de puntuación y documentación del conjunto de datos.

English

In industrial procurement, an LLM answer is useful only if it survives a standards check: recommended material must match operating condition, every parameter must respect a regulated threshold, and no procedure may contradict a safety clause. Partial correctness can mask safety-critical contradictions that aggregate LLM benchmarks rarely capture. We introduce IndustryBench, a 2,049-item benchmark for industrial procurement QA in Chinese, grounded in Chinese national standards (GB/T) and structured industrial product records, organized by seven capability dimensions, ten industry categories, and panel-derived difficulty tiers, with item-aligned English, Russian, and Vietnamese renderings. Our construction pipeline rejects 70.3% of LLM-generated candidates at a search-based external-verification stage, calibrating how unreliable industrial QA remains after LLM-only filtering.Our evaluation decouples raw correctness, scored by a Qwen3-Max judge validated at κ_w = 0.798 against a domain expert, from a separate safety-violation (SV) check against source texts. Across 17 models in Chinese and an 8-model intersection over four languages, we find: (i) the best system reaches only 2.083 on the 0--3 rubric, leaving substantial headroom; (ii) Standards & Terminology is the most persistent capability weakness and survives item-aligned translation; (iii) extended reasoning lowers safety-adjusted scores for 12 of 13 models, primarily by introducing unsupported safety-critical details into longer final answers; and (iv) safety-violation rates reshuffle the leaderboard -- GPT-5.4 climbs from rank 6 to rank 3 after SV adjustment, while Kimi-k2.5-1T-A32B drops seven positions.Industrial LLM evaluation therefore requires source-grounded, safety-aware diagnosis rather than aggregate accuracy. We release IndustryBench with all prompts, scoring scripts, and dataset documentation.

IndustryBench: Sondeando los Límites del Conocimiento Industrial de los LLMs

IndustryBench: Probing the Industrial Knowledge Boundaries of LLMs

Resumen

Support