ChatPaper.aiChatPaper

LoCoBench-Agent : Un benchmark interactif pour les agents LLM dans l'ingénierie logicielle à contexte long

LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

November 17, 2025
papers.authors: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Roshan Ram, Akshara Prabhakar, Tulika Awalgaonkar, Zixiang Chen, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI

papers.abstract

Alors que les modèles de langage de grande taille (LLM) évoluent vers des agents autonomes sophistiqués capables de réaliser des tâches complexes de développement logiciel, l'évaluation de leurs capacités en conditions réelles devient cruciale. Si les benchmarks existants comme LoCoBench~qiu2025locobench évaluent la compréhension de code à long contexte, ils se concentrent sur une évaluation en un seul tour et ne peuvent pas capturer la nature interactive multi-tours, les schémas d'utilisation des outils et le raisonnement adaptatif requis par les agents de codage en situation réelle. Nous présentons LoCoBench-Agent, un cadre d'évaluation complet spécialement conçu pour évaluer les agents LLM dans des workflows réalistes de génie logiciel à long contexte. Notre cadre étend les 8 000 scénarios de LoCoBench en environnements interactifs pour agents, permettant une évaluation systématique des conversations multi-tours, de l'efficacité d'utilisation des outils, de la récupération d'erreurs et de la cohérence architecturale lors de sessions de développement prolongées. Nous introduisons également une méthodologie d'évaluation avec 9 métriques couvrant les dimensions de compréhension et d'efficacité. Notre cadre fournit aux agents 8 outils spécialisés (opérations sur fichiers, recherche, analyse de code) et les évalue sur des longueurs de contexte allant de 10K à 1M de tokens, permettant une évaluation précise des performances en long contexte. Grâce à l'évaluation systématique des modèles de pointe, nous révélons plusieurs résultats clés : (1) les agents présentent une robustesse remarquable au long contexte ; (2) un compromis compréhension-efficacité existe avec une corrélation négative, où une exploration approfondie améliore la compréhension mais réduit l'efficacité ; et (3) l'efficacité conversationnelle varie considérablement selon les modèles, les schémas d'utilisation stratégique des outils différenciant les agents les plus performants. Premier benchmark pour agents LLM en long contexte dédié au génie logiciel, LoCoBench-Agent établit une base rigoureuse pour mesurer les capacités des agents, identifier les lacunes de performance et faire progresser le développement logiciel autonome à grande échelle.
English
As large language models (LLMs) evolve into sophisticated autonomous agents capable of complex software development tasks, evaluating their real-world capabilities becomes critical. While existing benchmarks like LoCoBench~qiu2025locobench assess long-context code understanding, they focus on single-turn evaluation and cannot capture the multi-turn interactive nature, tool usage patterns, and adaptive reasoning required by real-world coding agents. We introduce LoCoBench-Agent, a comprehensive evaluation framework specifically designed to assess LLM agents in realistic, long-context software engineering workflows. Our framework extends LoCoBench's 8,000 scenarios into interactive agent environments, enabling systematic evaluation of multi-turn conversations, tool usage efficiency, error recovery, and architectural consistency across extended development sessions. We also introduce an evaluation methodology with 9 metrics across comprehension and efficiency dimensions. Our framework provides agents with 8 specialized tools (file operations, search, code analysis) and evaluates them across context lengths ranging from 10K to 1M tokens, enabling precise assessment of long-context performance. Through systematic evaluation of state-of-the-art models, we reveal several key findings: (1) agents exhibit remarkable long-context robustness; (2) comprehension-efficiency trade-off exists with negative correlation, where thorough exploration increases comprehension but reduces efficiency; and (3) conversation efficiency varies dramatically across models, with strategic tool usage patterns differentiating high-performing agents. As the first long-context LLM agent benchmark for software engineering, LoCoBench-Agent establishes a rigorous foundation for measuring agent capabilities, identifying performance gaps, and advancing autonomous software development at scale.
PDF22December 1, 2025