ChatPaper.aiChatPaper

DrafterBench: Evaluación de Modelos de Lenguaje de Gran Escala para la Automatización de Tareas en Ingeniería Civil

DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering

July 15, 2025
Autores: Yinsheng Li, Zhen Dong, Yi Shao
cs.AI

Resumen

Los agentes de modelos de lenguaje de gran escala (LLM, por sus siglas en inglés) han demostrado un gran potencial para resolver problemas del mundo real y prometen ser una solución para la automatización de tareas en la industria. Sin embargo, se necesitan más puntos de referencia para evaluar sistemáticamente a los agentes de automatización desde una perspectiva industrial, por ejemplo, en Ingeniería Civil. Por ello, proponemos DrafterBench para la evaluación integral de agentes LLM en el contexto de la revisión de dibujos técnicos, una tarea de representación en ingeniería civil. DrafterBench contiene doce tipos de tareas resumidas a partir de archivos de dibujo del mundo real, con 46 funciones/herramientas personalizadas y un total de 1920 tareas. DrafterBench es un punto de referencia de código abierto para probar rigurosamente la competencia de los agentes de IA en la interpretación de instrucciones complejas y de contexto largo, el aprovechamiento de conocimientos previos y la adaptación a la calidad dinámica de las instrucciones mediante la conciencia implícita de políticas. El kit de herramientas evalúa de manera integral distintas capacidades en la comprensión de datos estructurados, la ejecución de funciones, el seguimiento de instrucciones y el razonamiento crítico. DrafterBench ofrece un análisis detallado de la precisión de las tareas y las estadísticas de errores, con el objetivo de proporcionar una visión más profunda de las capacidades de los agentes e identificar objetivos de mejora para la integración de LLM en aplicaciones de ingeniería. Nuestro punto de referencia está disponible en https://github.com/Eason-Li-AIS/DrafterBench, con el conjunto de pruebas alojado en https://huggingface.co/datasets/Eason666/DrafterBench.
English
Large Language Model (LLM) agents have shown great potential for solving real-world problems and promise to be a solution for tasks automation in industry. However, more benchmarks are needed to systematically evaluate automation agents from an industrial perspective, for example, in Civil Engineering. Therefore, we propose DrafterBench for the comprehensive evaluation of LLM agents in the context of technical drawing revision, a representation task in civil engineering. DrafterBench contains twelve types of tasks summarized from real-world drawing files, with 46 customized functions/tools and 1920 tasks in total. DrafterBench is an open-source benchmark to rigorously test AI agents' proficiency in interpreting intricate and long-context instructions, leveraging prior knowledge, and adapting to dynamic instruction quality via implicit policy awareness. The toolkit comprehensively assesses distinct capabilities in structured data comprehension, function execution, instruction following, and critical reasoning. DrafterBench offers detailed analysis of task accuracy and error statistics, aiming to provide deeper insight into agent capabilities and identify improvement targets for integrating LLMs in engineering applications. Our benchmark is available at https://github.com/Eason-Li-AIS/DrafterBench, with the test set hosted at https://huggingface.co/datasets/Eason666/DrafterBench.
PDF181July 17, 2025