DrafterBench: Benchmarken van Grote Taalmodellen voor Taakautomatisering in de Civiele Techniek

Samenvatting

Large Language Model (LLM)-agents hebben groot potentieel getoond voor het oplossen van real-world problemen en beloven een oplossing te zijn voor taakautomatisering in de industrie. Er zijn echter meer benchmarks nodig om automatiseringsagentsystemen systematisch te evalueren vanuit een industrieel perspectief, bijvoorbeeld in de Civiele Techniek. Daarom stellen we DrafterBench voor voor de uitgebreide evaluatie van LLM-agents in de context van technische tekeningrevisie, een representatietaak in de civiele techniek. DrafterBench bevat twaalf soorten taken die zijn samengevat uit real-world tekenbestanden, met 46 aangepaste functies/tools en in totaal 1920 taken. DrafterBench is een open-source benchmark om de vaardigheden van AI-agents rigoureus te testen in het interpreteren van complexe en langdurige contextinstructies, het benutten van voorkennis en het aanpassen aan dynamische instructiekwaliteit via impliciet beleidsbewustzijn. De toolkit beoordeelt uitgebreid verschillende vaardigheden in gestructureerde gegevensbegrip, functie-uitvoering, instructieopvolging en kritisch redeneren. DrafterBench biedt een gedetailleerde analyse van taaknauwkeurigheid en foutenstatistieken, met als doel dieper inzicht te bieden in de mogelijkheden van agents en verbeteringsdoelen te identificeren voor de integratie van LLM's in technische toepassingen. Onze benchmark is beschikbaar op https://github.com/Eason-Li-AIS/DrafterBench, met de testset gehost op https://huggingface.co/datasets/Eason666/DrafterBench.

English

Large Language Model (LLM) agents have shown great potential for solving real-world problems and promise to be a solution for tasks automation in industry. However, more benchmarks are needed to systematically evaluate automation agents from an industrial perspective, for example, in Civil Engineering. Therefore, we propose DrafterBench for the comprehensive evaluation of LLM agents in the context of technical drawing revision, a representation task in civil engineering. DrafterBench contains twelve types of tasks summarized from real-world drawing files, with 46 customized functions/tools and 1920 tasks in total. DrafterBench is an open-source benchmark to rigorously test AI agents' proficiency in interpreting intricate and long-context instructions, leveraging prior knowledge, and adapting to dynamic instruction quality via implicit policy awareness. The toolkit comprehensively assesses distinct capabilities in structured data comprehension, function execution, instruction following, and critical reasoning. DrafterBench offers detailed analysis of task accuracy and error statistics, aiming to provide deeper insight into agent capabilities and identify improvement targets for integrating LLMs in engineering applications. Our benchmark is available at https://github.com/Eason-Li-AIS/DrafterBench, with the test set hosted at https://huggingface.co/datasets/Eason666/DrafterBench.

DrafterBench: Benchmarken van Grote Taalmodellen voor Taakautomatisering in de Civiele Techniek

DrafterBench: Benchmarking Large Language Models for Tasks Automation in Civil Engineering

Samenvatting

Support