BuildBench: Avaliando Agentes de LLM na Compilação de Software Open-Source do Mundo Real
BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software
September 27, 2025
Autores: Zehua Zhang, Ati Priya Bajaj, Divij Handa, Siyu Liu, Arvind S Raj, Hongkai Chen, Hulin Wang, Yibo Liu, Zion Leonahenahe Basque, Souradip Nath, Vishal Juneja, Nikhil Chapre, Yan Shoshitaishvili, Adam Doupé, Chitta Baral, Ruoyu Wang
cs.AI
Resumo
A compilação automática de projetos de software de código aberto (OSS) é uma tarefa vital, trabalhosa e complexa, o que a torna um bom desafio para Agentes de LLM. Os métodos existentes dependem de regras e fluxos de trabalho manualmente curados, que não conseguem se adaptar a OSS que exigem configuração personalizada ou preparação de ambiente. Tentativas recentes usando Modelos de Linguagem de Grande Escala (LLMs) empregaram avaliação seletiva em um subconjunto de OSS altamente avaliados, uma prática que subestima os desafios realistas da compilação de OSS. Na prática, as instruções de compilação frequentemente estão ausentes, as dependências não são documentadas, e compilações bem-sucedidas podem até exigir a aplicação de patches em arquivos de origem ou a modificação de scripts de compilação. Propomos um benchmark mais desafiador e realista, o BUILD-BENCH, que compreende OSS mais diversos em qualidade, escala e características. Além disso, propomos um agente baseado em LLM robusto como linha de base, o OSS-BUILD-AGENT, um sistema eficaz com um módulo aprimorado de recuperação de instruções de compilação que alcança desempenho de ponta no BUILD-BENCH e é adaptável a características heterogêneas de OSS. Também fornecemos uma análise detalhada sobre diferentes escolhas de design de métodos de compilação e sua influência na tarefa como um todo, oferecendo insights para guiar avanços futuros. Acreditamos que o desempenho no BUILD-BENCH pode refletir fielmente a capacidade de um agente de lidar com a compilação como uma tarefa complexa de engenharia de software e, como tal, nosso benchmark impulsionará a inovação com um impacto significativo em aplicações subsequentes nos campos de desenvolvimento de software e segurança de software.
English
Automatically compiling open-source software (OSS) projects is a vital,
labor-intensive, and complex task, which makes it a good challenge for LLM
Agents. Existing methods rely on manually curated rules and workflows, which
cannot adapt to OSS that requires customized configuration or environment
setup. Recent attempts using Large Language Models (LLMs) used selective
evaluation on a subset of highly rated OSS, a practice that underestimates the
realistic challenges of OSS compilation. In practice, compilation instructions
are often absent, dependencies are undocumented, and successful builds may even
require patching source files or modifying build scripts. We propose a more
challenging and realistic benchmark, BUILD-BENCH, comprising OSS that are more
diverse in quality, scale, and characteristics. Furthermore, we propose a
strong baseline LLM-based agent, OSS-BUILD-AGENT, an effective system with
enhanced build instruction retrieval module that achieves state-of-the-art
performance on BUILD-BENCH and is adaptable to heterogeneous OSS
characteristics. We also provide detailed analysis regarding different
compilation method design choices and their influence to the whole task,
offering insights to guide future advances. We believe performance on
BUILD-BENCH can faithfully reflect an agent's ability to tackle compilation as
a complex software engineering tasks, and, as such, our benchmark will spur
innovation with a significant impact on downstream applications in the fields
of software development and software security.