BuildBench : Évaluation des agents LLM sur la compilation de logiciels open-source en conditions réelles

papers.abstract

La compilation automatique de projets de logiciels open-source (OSS) est une tâche essentielle, laborieuse et complexe, ce qui en fait un défi pertinent pour les agents basés sur des modèles de langage de grande taille (LLM). Les méthodes existantes reposent sur des règles et des workflows manuellement élaborés, qui ne peuvent pas s'adapter aux OSS nécessitant une configuration personnalisée ou une mise en place d'environnement spécifique. Les tentatives récentes utilisant des modèles de langage de grande taille (LLM) se sont appuyées sur une évaluation sélective d'un sous-ensemble d'OSS hautement notés, une pratique qui sous-estime les défis réalistes de la compilation des OSS. En pratique, les instructions de compilation sont souvent absentes, les dépendances ne sont pas documentées, et des builds réussis peuvent même nécessiter la modification de fichiers sources ou de scripts de compilation. Nous proposons un benchmark plus exigeant et réaliste, BUILD-BENCH, comprenant des OSS plus diversifiés en termes de qualité, d'échelle et de caractéristiques. De plus, nous proposons un agent de référence basé sur un LLM, OSS-BUILD-AGENT, un système efficace doté d'un module amélioré de récupération d'instructions de compilation, qui atteint des performances de pointe sur BUILD-BENCH et s'adapte aux caractéristiques hétérogènes des OSS. Nous fournissons également une analyse détaillée concernant les différents choix de conception des méthodes de compilation et leur influence sur l'ensemble de la tâche, offrant des insights pour guider les avancées futures. Nous pensons que les performances sur BUILD-BENCH peuvent refléter fidèlement la capacité d'un agent à aborder la compilation comme une tâche complexe d'ingénierie logicielle, et, à ce titre, notre benchmark stimulera l'innovation avec un impact significatif sur les applications en aval dans les domaines du développement logiciel et de la sécurité logicielle.

English

Automatically compiling open-source software (OSS) projects is a vital, labor-intensive, and complex task, which makes it a good challenge for LLM Agents. Existing methods rely on manually curated rules and workflows, which cannot adapt to OSS that requires customized configuration or environment setup. Recent attempts using Large Language Models (LLMs) used selective evaluation on a subset of highly rated OSS, a practice that underestimates the realistic challenges of OSS compilation. In practice, compilation instructions are often absent, dependencies are undocumented, and successful builds may even require patching source files or modifying build scripts. We propose a more challenging and realistic benchmark, BUILD-BENCH, comprising OSS that are more diverse in quality, scale, and characteristics. Furthermore, we propose a strong baseline LLM-based agent, OSS-BUILD-AGENT, an effective system with enhanced build instruction retrieval module that achieves state-of-the-art performance on BUILD-BENCH and is adaptable to heterogeneous OSS characteristics. We also provide detailed analysis regarding different compilation method design choices and their influence to the whole task, offering insights to guide future advances. We believe performance on BUILD-BENCH can faithfully reflect an agent's ability to tackle compilation as a complex software engineering tasks, and, as such, our benchmark will spur innovation with a significant impact on downstream applications in the fields of software development and software security.

BuildBench : Évaluation des agents LLM sur la compilation de logiciels open-source en conditions réelles

BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software

papers.abstract

Support