BuildBench : Évaluation des agents LLM sur la compilation de logiciels open-source en conditions réelles
BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software
September 27, 2025
papers.authors: Zehua Zhang, Ati Priya Bajaj, Divij Handa, Siyu Liu, Arvind S Raj, Hongkai Chen, Hulin Wang, Yibo Liu, Zion Leonahenahe Basque, Souradip Nath, Vishal Juneja, Nikhil Chapre, Yan Shoshitaishvili, Adam Doupé, Chitta Baral, Ruoyu Wang
cs.AI
papers.abstract
La compilation automatique de projets de logiciels open-source (OSS) est une tâche essentielle, laborieuse et complexe, ce qui en fait un défi pertinent pour les agents basés sur des modèles de langage de grande taille (LLM). Les méthodes existantes reposent sur des règles et des workflows manuellement élaborés, qui ne peuvent pas s'adapter aux OSS nécessitant une configuration personnalisée ou une mise en place d'environnement spécifique. Les tentatives récentes utilisant des modèles de langage de grande taille (LLM) se sont appuyées sur une évaluation sélective d'un sous-ensemble d'OSS hautement notés, une pratique qui sous-estime les défis réalistes de la compilation des OSS. En pratique, les instructions de compilation sont souvent absentes, les dépendances ne sont pas documentées, et des builds réussis peuvent même nécessiter la modification de fichiers sources ou de scripts de compilation. Nous proposons un benchmark plus exigeant et réaliste, BUILD-BENCH, comprenant des OSS plus diversifiés en termes de qualité, d'échelle et de caractéristiques. De plus, nous proposons un agent de référence basé sur un LLM, OSS-BUILD-AGENT, un système efficace doté d'un module amélioré de récupération d'instructions de compilation, qui atteint des performances de pointe sur BUILD-BENCH et s'adapte aux caractéristiques hétérogènes des OSS. Nous fournissons également une analyse détaillée concernant les différents choix de conception des méthodes de compilation et leur influence sur l'ensemble de la tâche, offrant des insights pour guider les avancées futures. Nous pensons que les performances sur BUILD-BENCH peuvent refléter fidèlement la capacité d'un agent à aborder la compilation comme une tâche complexe d'ingénierie logicielle, et, à ce titre, notre benchmark stimulera l'innovation avec un impact significatif sur les applications en aval dans les domaines du développement logiciel et de la sécurité logicielle.
English
Automatically compiling open-source software (OSS) projects is a vital,
labor-intensive, and complex task, which makes it a good challenge for LLM
Agents. Existing methods rely on manually curated rules and workflows, which
cannot adapt to OSS that requires customized configuration or environment
setup. Recent attempts using Large Language Models (LLMs) used selective
evaluation on a subset of highly rated OSS, a practice that underestimates the
realistic challenges of OSS compilation. In practice, compilation instructions
are often absent, dependencies are undocumented, and successful builds may even
require patching source files or modifying build scripts. We propose a more
challenging and realistic benchmark, BUILD-BENCH, comprising OSS that are more
diverse in quality, scale, and characteristics. Furthermore, we propose a
strong baseline LLM-based agent, OSS-BUILD-AGENT, an effective system with
enhanced build instruction retrieval module that achieves state-of-the-art
performance on BUILD-BENCH and is adaptable to heterogeneous OSS
characteristics. We also provide detailed analysis regarding different
compilation method design choices and their influence to the whole task,
offering insights to guide future advances. We believe performance on
BUILD-BENCH can faithfully reflect an agent's ability to tackle compilation as
a complex software engineering tasks, and, as such, our benchmark will spur
innovation with a significant impact on downstream applications in the fields
of software development and software security.