Avanzamenti e Frontiere della Risoluzione di Problemi basata su LLM nell'Ingegneria del Software: Una Rassegna Completa

Abstract

La risoluzione di problemi, un complesso compito di ingegneria del software (SWE) integrale allo sviluppo nel mondo reale, è emersa come una sfida avvincente per l'intelligenza artificiale. L'istituzione di benchmark come SWE-bench ha rivelato che questo compito è estremamente difficile per i grandi modelli linguistici, accelerando così significativamente l'evoluzione di agenti di codifica autonomi. Questo articolo presenta una rassegna sistematica di questo dominio emergente. Iniziamo esaminando le pipeline di costruzione dei dati, coprendo approcci di raccolta automatica e di sintesi. Forniamo quindi un'analisi completa delle metodologie, spaziando da framework senza addestramento con i loro componenti modulari a tecniche basate sull'addestramento, inclusi il fine-tuning supervisionato e l'apprendimento per rinforzo. Successivamente, discutiamo analisi critiche sulla qualità dei dati e sul comportamento degli agenti, insieme ad applicazioni pratiche. Infine, identifichiamo le principali sfide e delineiamo le direzioni promettenti per la ricerca futura. Un repository open-source è mantenuto all'indirizzo https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution per fungere da risorsa dinamica in questo campo.

English

Issue resolution, a complex Software Engineering (SWE) task integral to real-world development, has emerged as a compelling challenge for artificial intelligence. The establishment of benchmarks like SWE-bench revealed this task as profoundly difficult for large language models, thereby significantly accelerating the evolution of autonomous coding agents. This paper presents a systematic survey of this emerging domain. We begin by examining data construction pipelines, covering automated collection and synthesis approaches. We then provide a comprehensive analysis of methodologies, spanning training-free frameworks with their modular components to training-based techniques, including supervised fine-tuning and reinforcement learning. Subsequently, we discuss critical analyses of data quality and agent behavior, alongside practical applications. Finally, we identify key challenges and outline promising directions for future research. An open-source repository is maintained at https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution to serve as a dynamic resource in this field.

Avanzamenti e Frontiere della Risoluzione di Problemi basata su LLM nell'Ingegneria del Software: Una Rassegna Completa

Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey

Abstract

Support