DrafterBench: Avaliação de Modelos de Linguagem de Grande Escala para Automação de Tarefas em Engenharia Civil
DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering
July 15, 2025
Autores: Yinsheng Li, Zhen Dong, Yi Shao
cs.AI
Resumo
Agentes de Modelos de Linguagem de Grande Escala (LLM) têm demonstrado grande potencial para resolver problemas do mundo real e prometem ser uma solução para a automação de tarefas na indústria. No entanto, mais benchmarks são necessários para avaliar sistematicamente agentes de automação sob uma perspectiva industrial, por exemplo, na Engenharia Civil. Portanto, propomos o DrafterBench para a avaliação abrangente de agentes LLM no contexto de revisão de desenhos técnicos, uma tarefa de representação na engenharia civil. O DrafterBench contém doze tipos de tarefas resumidas a partir de arquivos de desenho do mundo real, com 46 funções/ferramentas personalizadas e 1920 tarefas no total. O DrafterBench é um benchmark de código aberto para testar rigorosamente a proficiência de agentes de IA na interpretação de instruções complexas e de longo contexto, aproveitando conhecimento prévio e adaptando-se à qualidade dinâmica das instruções por meio de consciência implícita de políticas. O kit de ferramentas avalia de forma abrangente capacidades distintas em compreensão de dados estruturados, execução de funções, seguimento de instruções e raciocínio crítico. O DrafterBench oferece uma análise detalhada da precisão das tarefas e estatísticas de erros, visando fornecer uma visão mais profunda das capacidades dos agentes e identificar alvos de melhoria para a integração de LLMs em aplicações de engenharia. Nosso benchmark está disponível em https://github.com/Eason-Li-AIS/DrafterBench, com o conjunto de testes hospedado em https://huggingface.co/datasets/Eason666/DrafterBench.
English
Large Language Model (LLM) agents have shown great potential for solving
real-world problems and promise to be a solution for tasks automation in
industry. However, more benchmarks are needed to systematically evaluate
automation agents from an industrial perspective, for example, in Civil
Engineering. Therefore, we propose DrafterBench for the comprehensive
evaluation of LLM agents in the context of technical drawing revision, a
representation task in civil engineering. DrafterBench contains twelve types of
tasks summarized from real-world drawing files, with 46 customized
functions/tools and 1920 tasks in total. DrafterBench is an open-source
benchmark to rigorously test AI agents' proficiency in interpreting intricate
and long-context instructions, leveraging prior knowledge, and adapting to
dynamic instruction quality via implicit policy awareness. The toolkit
comprehensively assesses distinct capabilities in structured data
comprehension, function execution, instruction following, and critical
reasoning. DrafterBench offers detailed analysis of task accuracy and error
statistics, aiming to provide deeper insight into agent capabilities and
identify improvement targets for integrating LLMs in engineering applications.
Our benchmark is available at https://github.com/Eason-Li-AIS/DrafterBench,
with the test set hosted at
https://huggingface.co/datasets/Eason666/DrafterBench.