BuildBench: Avaliando Agentes de LLM na Compilação de Software Open-Source do Mundo Real

Resumo

A compilação automática de projetos de software de código aberto (OSS) é uma tarefa vital, trabalhosa e complexa, o que a torna um bom desafio para Agentes de LLM. Os métodos existentes dependem de regras e fluxos de trabalho manualmente curados, que não conseguem se adaptar a OSS que exigem configuração personalizada ou preparação de ambiente. Tentativas recentes usando Modelos de Linguagem de Grande Escala (LLMs) empregaram avaliação seletiva em um subconjunto de OSS altamente avaliados, uma prática que subestima os desafios realistas da compilação de OSS. Na prática, as instruções de compilação frequentemente estão ausentes, as dependências não são documentadas, e compilações bem-sucedidas podem até exigir a aplicação de patches em arquivos de origem ou a modificação de scripts de compilação. Propomos um benchmark mais desafiador e realista, o BUILD-BENCH, que compreende OSS mais diversos em qualidade, escala e características. Além disso, propomos um agente baseado em LLM robusto como linha de base, o OSS-BUILD-AGENT, um sistema eficaz com um módulo aprimorado de recuperação de instruções de compilação que alcança desempenho de ponta no BUILD-BENCH e é adaptável a características heterogêneas de OSS. Também fornecemos uma análise detalhada sobre diferentes escolhas de design de métodos de compilação e sua influência na tarefa como um todo, oferecendo insights para guiar avanços futuros. Acreditamos que o desempenho no BUILD-BENCH pode refletir fielmente a capacidade de um agente de lidar com a compilação como uma tarefa complexa de engenharia de software e, como tal, nosso benchmark impulsionará a inovação com um impacto significativo em aplicações subsequentes nos campos de desenvolvimento de software e segurança de software.

English

Automatically compiling open-source software (OSS) projects is a vital, labor-intensive, and complex task, which makes it a good challenge for LLM Agents. Existing methods rely on manually curated rules and workflows, which cannot adapt to OSS that requires customized configuration or environment setup. Recent attempts using Large Language Models (LLMs) used selective evaluation on a subset of highly rated OSS, a practice that underestimates the realistic challenges of OSS compilation. In practice, compilation instructions are often absent, dependencies are undocumented, and successful builds may even require patching source files or modifying build scripts. We propose a more challenging and realistic benchmark, BUILD-BENCH, comprising OSS that are more diverse in quality, scale, and characteristics. Furthermore, we propose a strong baseline LLM-based agent, OSS-BUILD-AGENT, an effective system with enhanced build instruction retrieval module that achieves state-of-the-art performance on BUILD-BENCH and is adaptable to heterogeneous OSS characteristics. We also provide detailed analysis regarding different compilation method design choices and their influence to the whole task, offering insights to guide future advances. We believe performance on BUILD-BENCH can faithfully reflect an agent's ability to tackle compilation as a complex software engineering tasks, and, as such, our benchmark will spur innovation with a significant impact on downstream applications in the fields of software development and software security.

BuildBench: Avaliando Agentes de LLM na Compilação de Software Open-Source do Mundo Real

BuildBench: Benchmarking LLM Agents on Compiling Real-World Open-Source Software

Resumo

Support