ContextBench: Um Benchmark para Recuperação de Contexto em Agentes de Programação

Resumo

Os agentes de codificação baseados em LLM têm demonstrado um forte desempenho em benchmarks de resolução automatizada de problemas (*issues*), no entanto, as avaliações existentes concentram-se maioritariamente no sucesso final da tarefa, fornecendo uma visão limitada sobre como os agentes recuperam e utilizam o contexto do código durante a resolução de problemas. Apresentamos o ContextBench, uma avaliação orientada ao processo da recuperação de contexto em agentes de codificação. O ContextBench é composto por 1.136 tarefas de resolução de problemas, provenientes de 66 repositórios e abrangendo oito linguagens de programação, cada uma aumentada com contextos de ouro anotados manualmente. Implementamos ainda uma estrutura de avaliação automatizada que monitoriza as trajetórias dos agentes e mede a recuperação de contexto (*recall*), a precisão (*precision*) e a eficiência ao longo de toda a resolução do problema. Utilizando o ContextBench, avaliamos quatro LLMs de ponta e cinco agentes de codificação. Os nossos resultados mostram que a sofisticação da estrutura do agente (*sophisticated agent scaffolding*) produz apenas ganhos marginais na recuperação de contexto ("A Lição Amarga" dos agentes de codificação), que os LLMs privilegiam consistentemente a recuperação em detrimento da precisão, e que existem lacunas substanciais entre o contexto explorado e o contexto utilizado. O ContextBench complementa os benchmarks *end-to-end* existentes com métricas intermédias de contexto de ouro que permitem analisar o processo de resolução de problemas. Estes contextos oferecem sinais intermédios valiosos para orientar o raciocínio dos LLMs em tarefas de software.

English

LLM-based coding agents have shown strong performance on automated issue resolution benchmarks, yet existing evaluations largely focus on final task success, providing limited insight into how agents retrieve and use code context during problem solving. We introduce ContextBench, a process-oriented evaluation of context retrieval in coding agents. ContextBench consists of 1,136 issue-resolution tasks from 66 repositories across eight programming languages, each augmented with human-annotated gold contexts. We further implement an automated evaluation framework that tracks agent trajectories and measures context recall, precision, and efficiency throughout issue resolution. Using ContextBench, we evaluate four frontier LLMs and five coding agents. Our results show that sophisticated agent scaffolding yields only marginal gains in context retrieval ("The Bitter Lesson" of coding agents), LLMs consistently favor recall over precision, and substantial gaps exist between explored and utilized context. ContextBench augments existing end-to-end benchmarks with intermediate gold-context metrics that unbox the issue-resolution process. These contexts offer valuable intermediate signals for guiding LLM reasoning in software tasks.

ContextBench: Um Benchmark para Recuperação de Contexto em Agentes de Programação

ContextBench: A Benchmark for Context Retrieval in Coding Agents

Resumo

Support