ContextBench : un benchmark pour la récupération de contexte dans les agents de codage

papers.abstract

Les agents de programmation basés sur LLM ont démontré de solides performances sur les benchmarks de résolution automatisée de problèmes, mais les évaluations existantes se concentrent largement sur la réussite finale des tâches, fournissant des insights limités sur la manière dont les agents récupèrent et utilisent le contexte du code pendant la résolution de problèmes. Nous présentons ContextBench, une évaluation orientée processus de la récupération de contexte dans les agents de programmation. ContextBench se compose de 1 136 tâches de résolution de problèmes issues de 66 dépôts couvrant huit langages de programmation, chacune étant enrichie de contextes de référence annotés manuellement. Nous implémentons en outre un cadre d'évaluation automatisé qui suit les trajectoires des agents et mesure le rappel, la précision et l'efficacité du contexte tout au long de la résolution des problèmes. En utilisant ContextBench, nous évaluons quatre LLM de pointe et cinq agents de programmation. Nos résultats montrent que les infrastructures sophistiquées d'agents n'apportent que des gains marginaux en récupération de contexte ("La Leçon Amère" des agents de programmation), que les LLM privilégient systématiquement le rappel au détriment de la précision, et qu'il existe un écart substantiel entre le contexte exploré et le contexte effectivement utilisé. ContextBench complète les benchmarks de bout en bout existants avec des métriques intermédiaires basées sur un contexte de référence, permettant de déconstruire le processus de résolution de problèmes. Ces contextes offrent des signaux intermédiaires précieux pour guider le raisonnement des LLM dans les tâches logicielles.

English

LLM-based coding agents have shown strong performance on automated issue resolution benchmarks, yet existing evaluations largely focus on final task success, providing limited insight into how agents retrieve and use code context during problem solving. We introduce ContextBench, a process-oriented evaluation of context retrieval in coding agents. ContextBench consists of 1,136 issue-resolution tasks from 66 repositories across eight programming languages, each augmented with human-annotated gold contexts. We further implement an automated evaluation framework that tracks agent trajectories and measures context recall, precision, and efficiency throughout issue resolution. Using ContextBench, we evaluate four frontier LLMs and five coding agents. Our results show that sophisticated agent scaffolding yields only marginal gains in context retrieval ("The Bitter Lesson" of coding agents), LLMs consistently favor recall over precision, and substantial gaps exist between explored and utilized context. ContextBench augments existing end-to-end benchmarks with intermediate gold-context metrics that unbox the issue-resolution process. These contexts offer valuable intermediate signals for guiding LLM reasoning in software tasks.

ContextBench : un benchmark pour la récupération de contexte dans les agents de codage

ContextBench: A Benchmark for Context Retrieval in Coding Agents

papers.abstract

Support