BuildBench: Het benchmarken van LLM-agents bij het compileren van real-world open-source software

Samenvatting

Het automatisch compileren van open-source software (OSS) projecten is een cruciale, arbeidsintensieve en complexe taak, wat het een goede uitdaging maakt voor LLM-agents. Bestaande methoden vertrouwen op handmatig samengestelde regels en workflows, die zich niet kunnen aanpassen aan OSS die aangepaste configuratie of omgevingsinstellingen vereist. Recente pogingen met behulp van Large Language Models (LLMs) maakten gebruik van selectieve evaluatie op een subset van hoog gewaardeerde OSS, een praktijk die de realistische uitdagingen van OSS-compilatie onderschat. In de praktijk ontbreken compilatie-instructies vaak, zijn afhankelijkheden niet gedocumenteerd, en kunnen succesvolle builds zelfs het patchen van bronbestanden of het aanpassen van build-scripts vereisen. Wij stellen een uitdagender en realistischer benchmark voor, BUILD-BENCH, bestaande uit OSS die diverser zijn in kwaliteit, schaal en kenmerken. Bovendien stellen wij een sterke baseline LLM-gebaseerde agent voor, OSS-BUILD-AGENT, een effectief systeem met een verbeterde module voor het ophalen van build-instructies dat state-of-the-art prestaties behaalt op BUILD-BENCH en aanpasbaar is aan heterogene OSS-kenmerken. Wij bieden ook een gedetailleerde analyse met betrekking tot verschillende ontwerpkeuzes voor compilatiemethoden en hun invloed op de gehele taak, wat inzichten biedt om toekomstige vooruitgang te begeleiden. Wij geloven dat prestaties op BUILD-BENCH het vermogen van een agent om compilatie als een complexe software-engineeringtaak aan te pakken, nauwkeurig kunnen weerspiegelen, en als zodanig zal onze benchmark innovatie stimuleren met een significante impact op downstream toepassingen in de velden van softwareontwikkeling en softwaresecurity.

English

Automatically compiling open-source software (OSS) projects is a vital, labor-intensive, and complex task, which makes it a good challenge for LLM Agents. Existing methods rely on manually curated rules and workflows, which cannot adapt to OSS that requires customized configuration or environment setup. Recent attempts using Large Language Models (LLMs) used selective evaluation on a subset of highly rated OSS, a practice that underestimates the realistic challenges of OSS compilation. In practice, compilation instructions are often absent, dependencies are undocumented, and successful builds may even require patching source files or modifying build scripts. We propose a more challenging and realistic benchmark, BUILD-BENCH, comprising OSS that are more diverse in quality, scale, and characteristics. Furthermore, we propose a strong baseline LLM-based agent, OSS-BUILD-AGENT, an effective system with enhanced build instruction retrieval module that achieves state-of-the-art performance on BUILD-BENCH and is adaptable to heterogeneous OSS characteristics. We also provide detailed analysis regarding different compilation method design choices and their influence to the whole task, offering insights to guide future advances. We believe performance on BUILD-BENCH can faithfully reflect an agent's ability to tackle compilation as a complex software engineering tasks, and, as such, our benchmark will spur innovation with a significant impact on downstream applications in the fields of software development and software security.

BuildBench: Het benchmarken van LLM-agents bij het compileren van real-world open-source software

BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software

Samenvatting

Support