DrafterBench: Benchmarken van Grote Taalmodellen voor Taakautomatisering in de Civiele Techniek
DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering
July 15, 2025
Auteurs: Yinsheng Li, Zhen Dong, Yi Shao
cs.AI
Samenvatting
Large Language Model (LLM)-agents hebben groot potentieel getoond voor het oplossen van real-world problemen en beloven een oplossing te zijn voor taakautomatisering in de industrie. Er zijn echter meer benchmarks nodig om automatiseringsagentsystemen systematisch te evalueren vanuit een industrieel perspectief, bijvoorbeeld in de Civiele Techniek. Daarom stellen we DrafterBench voor voor de uitgebreide evaluatie van LLM-agents in de context van technische tekeningrevisie, een representatietaak in de civiele techniek. DrafterBench bevat twaalf soorten taken die zijn samengevat uit real-world tekenbestanden, met 46 aangepaste functies/tools en in totaal 1920 taken. DrafterBench is een open-source benchmark om de vaardigheden van AI-agents rigoureus te testen in het interpreteren van complexe en langdurige contextinstructies, het benutten van voorkennis en het aanpassen aan dynamische instructiekwaliteit via impliciet beleidsbewustzijn. De toolkit beoordeelt uitgebreid verschillende vaardigheden in gestructureerde gegevensbegrip, functie-uitvoering, instructieopvolging en kritisch redeneren. DrafterBench biedt een gedetailleerde analyse van taaknauwkeurigheid en foutenstatistieken, met als doel dieper inzicht te bieden in de mogelijkheden van agents en verbeteringsdoelen te identificeren voor de integratie van LLM's in technische toepassingen. Onze benchmark is beschikbaar op https://github.com/Eason-Li-AIS/DrafterBench, met de testset gehost op https://huggingface.co/datasets/Eason666/DrafterBench.
English
Large Language Model (LLM) agents have shown great potential for solving
real-world problems and promise to be a solution for tasks automation in
industry. However, more benchmarks are needed to systematically evaluate
automation agents from an industrial perspective, for example, in Civil
Engineering. Therefore, we propose DrafterBench for the comprehensive
evaluation of LLM agents in the context of technical drawing revision, a
representation task in civil engineering. DrafterBench contains twelve types of
tasks summarized from real-world drawing files, with 46 customized
functions/tools and 1920 tasks in total. DrafterBench is an open-source
benchmark to rigorously test AI agents' proficiency in interpreting intricate
and long-context instructions, leveraging prior knowledge, and adapting to
dynamic instruction quality via implicit policy awareness. The toolkit
comprehensively assesses distinct capabilities in structured data
comprehension, function execution, instruction following, and critical
reasoning. DrafterBench offers detailed analysis of task accuracy and error
statistics, aiming to provide deeper insight into agent capabilities and
identify improvement targets for integrating LLMs in engineering applications.
Our benchmark is available at https://github.com/Eason-Li-AIS/DrafterBench,
with the test set hosted at
https://huggingface.co/datasets/Eason666/DrafterBench.