BuildBench: Het benchmarken van LLM-agents bij het compileren van real-world open-source software
BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software
September 27, 2025
Auteurs: Zehua Zhang, Ati Priya Bajaj, Divij Handa, Siyu Liu, Arvind S Raj, Hongkai Chen, Hulin Wang, Yibo Liu, Zion Leonahenahe Basque, Souradip Nath, Vishal Juneja, Nikhil Chapre, Yan Shoshitaishvili, Adam Doupé, Chitta Baral, Ruoyu Wang
cs.AI
Samenvatting
Het automatisch compileren van open-source software (OSS) projecten is een cruciale, arbeidsintensieve en complexe taak, wat het een goede uitdaging maakt voor LLM-agents. Bestaande methoden vertrouwen op handmatig samengestelde regels en workflows, die zich niet kunnen aanpassen aan OSS die aangepaste configuratie of omgevingsinstellingen vereist. Recente pogingen met behulp van Large Language Models (LLMs) maakten gebruik van selectieve evaluatie op een subset van hoog gewaardeerde OSS, een praktijk die de realistische uitdagingen van OSS-compilatie onderschat. In de praktijk ontbreken compilatie-instructies vaak, zijn afhankelijkheden niet gedocumenteerd, en kunnen succesvolle builds zelfs het patchen van bronbestanden of het aanpassen van build-scripts vereisen. Wij stellen een uitdagender en realistischer benchmark voor, BUILD-BENCH, bestaande uit OSS die diverser zijn in kwaliteit, schaal en kenmerken. Bovendien stellen wij een sterke baseline LLM-gebaseerde agent voor, OSS-BUILD-AGENT, een effectief systeem met een verbeterde module voor het ophalen van build-instructies dat state-of-the-art prestaties behaalt op BUILD-BENCH en aanpasbaar is aan heterogene OSS-kenmerken. Wij bieden ook een gedetailleerde analyse met betrekking tot verschillende ontwerpkeuzes voor compilatiemethoden en hun invloed op de gehele taak, wat inzichten biedt om toekomstige vooruitgang te begeleiden. Wij geloven dat prestaties op BUILD-BENCH het vermogen van een agent om compilatie als een complexe software-engineeringtaak aan te pakken, nauwkeurig kunnen weerspiegelen, en als zodanig zal onze benchmark innovatie stimuleren met een significante impact op downstream toepassingen in de velden van softwareontwikkeling en softwaresecurity.
English
Automatically compiling open-source software (OSS) projects is a vital,
labor-intensive, and complex task, which makes it a good challenge for LLM
Agents. Existing methods rely on manually curated rules and workflows, which
cannot adapt to OSS that requires customized configuration or environment
setup. Recent attempts using Large Language Models (LLMs) used selective
evaluation on a subset of highly rated OSS, a practice that underestimates the
realistic challenges of OSS compilation. In practice, compilation instructions
are often absent, dependencies are undocumented, and successful builds may even
require patching source files or modifying build scripts. We propose a more
challenging and realistic benchmark, BUILD-BENCH, comprising OSS that are more
diverse in quality, scale, and characteristics. Furthermore, we propose a
strong baseline LLM-based agent, OSS-BUILD-AGENT, an effective system with
enhanced build instruction retrieval module that achieves state-of-the-art
performance on BUILD-BENCH and is adaptable to heterogeneous OSS
characteristics. We also provide detailed analysis regarding different
compilation method design choices and their influence to the whole task,
offering insights to guide future advances. We believe performance on
BUILD-BENCH can faithfully reflect an agent's ability to tackle compilation as
a complex software engineering tasks, and, as such, our benchmark will spur
innovation with a significant impact on downstream applications in the fields
of software development and software security.