ChatPaper.aiChatPaper

LoCoBench-Agent: Un Benchmark Interattivo per Agenti LLM nell'Ingegneria del Software a Contesto Esteso

LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering

November 17, 2025
Autori: Jielin Qiu, Zuxin Liu, Zhiwei Liu, Rithesh Murthy, Jianguo Zhang, Haolin Chen, Shiyu Wang, Ming Zhu, Liangwei Yang, Juntao Tan, Roshan Ram, Akshara Prabhakar, Tulika Awalgaonkar, Zixiang Chen, Zhepeng Cen, Cheng Qian, Shelby Heinecke, Weiran Yao, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) evolvono in agenti autonomi sofisticati capaci di compiti complessi di sviluppo software, diventa fondamentale valutarne le capacità nel mondo reale. Sebbene benchmark esistenti come LoCoBench~qiu2025locobench valutino la comprensione del codice in contesti lunghi, si concentrano su valutazioni a turno singolo e non riescono a catturare la natura interattiva multi-turno, i modelli di utilizzo degli strumenti e il ragionamento adattivo richiesti dagli agenti di codifica reali. Introduciamo LoCoBench-Agent, un framework di valutazione completo progettato specificamente per valutare gli agenti basati su LLM in flussi di lavoro realistici di ingegneria del software con contesti lunghi. Il nostro framework estende gli 8.000 scenari di LoCoBench in ambienti interattivi per agenti, consentendo una valutazione sistematica di conversazioni multi-turno, efficienza nell'uso degli strumenti, recupero dagli errori e coerenza architetturale durante sessioni di sviluppo prolungate. Introduciamo inoltre una metodologia di valutazione con 9 metriche che coprono le dimensioni della comprensione e dell'efficienza. Il nostro framework fornisce agli agenti 8 strumenti specializzati (operazioni sui file, ricerca, analisi del codice) e li valuta in contesti di lunghezza compresa tra 10.000 e 1 milione di token, permettendo una valutazione precisa delle prestazioni in contesti lunghi. Attraverso una valutazione sistematica dei modelli più all'avanguardia, riveliamo diversi risultati chiave: (1) gli agenti mostrano una notevole robustezza in contesti lunghi; (2) esiste un trade-off comprensione-efficienza con correlazione negativa, dove un'esplorazione approfondita aumenta la comprensione ma riduce l'efficienza; e (3) l'efficienza conversazionale varia notevolmente tra i modelli, con modelli strategici di utilizzo degli strumenti che differenziano gli agenti dalle prestazioni elevate. In quanto primo benchmark per agenti LLM in contesti lunghi dedicato all'ingegneria del software, LoCoBench-Agent stabilisce una base rigorosa per misurare le capacità degli agenti, identificare i gap prestazionali e far progredire lo sviluppo software autonomo su larga scala.
English
As large language models (LLMs) evolve into sophisticated autonomous agents capable of complex software development tasks, evaluating their real-world capabilities becomes critical. While existing benchmarks like LoCoBench~qiu2025locobench assess long-context code understanding, they focus on single-turn evaluation and cannot capture the multi-turn interactive nature, tool usage patterns, and adaptive reasoning required by real-world coding agents. We introduce LoCoBench-Agent, a comprehensive evaluation framework specifically designed to assess LLM agents in realistic, long-context software engineering workflows. Our framework extends LoCoBench's 8,000 scenarios into interactive agent environments, enabling systematic evaluation of multi-turn conversations, tool usage efficiency, error recovery, and architectural consistency across extended development sessions. We also introduce an evaluation methodology with 9 metrics across comprehension and efficiency dimensions. Our framework provides agents with 8 specialized tools (file operations, search, code analysis) and evaluates them across context lengths ranging from 10K to 1M tokens, enabling precise assessment of long-context performance. Through systematic evaluation of state-of-the-art models, we reveal several key findings: (1) agents exhibit remarkable long-context robustness; (2) comprehension-efficiency trade-off exists with negative correlation, where thorough exploration increases comprehension but reduces efficiency; and (3) conversation efficiency varies dramatically across models, with strategic tool usage patterns differentiating high-performing agents. As the first long-context LLM agent benchmark for software engineering, LoCoBench-Agent establishes a rigorous foundation for measuring agent capabilities, identifying performance gaps, and advancing autonomous software development at scale.
PDF22December 1, 2025