Vooruitgang en Grenzen van LLM-gestuurde Probleemoplossing in Software Engineering: Een Diepgaand Overzicht

Samenvatting

Probleemoplossing, een complexe Software Engineering (SWE) taak die integraal deel uitmaakt van praktijkgerichte ontwikkeling, is naar voren gekomen als een boeiende uitdaging voor kunstmatige intelligentie. De oprichting van benchmarks zoals SWE-bench toonde aan dat deze taak bijzonder moeilijk is voor grote taalmodellen, wat de evolutie van autonome codeeragentschappen aanzienlijk heeft versneld. Dit artikel presenteert een systematisch overzicht van dit opkomende domein. We beginnen met het onderzoeken van dataconstructiepijplijnen, waarbij we automatische verzamelings- en synthesemethoden behandelen. Vervolgens geven we een uitgebreide analyse van methodologieën, variërend van trainingsvrije raamwerken met hun modulaire componenten tot trainingsgebaseerde technieken, zoals supervised fine-tuning en reinforcement learning. Daarna bespreken we kritische analyses van data-kwaliteit en agentgedrag, naast praktische toepassingen. Ten slotte identificeren we belangrijke uitdagingen en schetsen we veelbelovende richtingen voor toekomstig onderzoek. Een open-source repository wordt onderhouden op https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution om te dienen als een dynamische bron op dit gebied.

English

Issue resolution, a complex Software Engineering (SWE) task integral to real-world development, has emerged as a compelling challenge for artificial intelligence. The establishment of benchmarks like SWE-bench revealed this task as profoundly difficult for large language models, thereby significantly accelerating the evolution of autonomous coding agents. This paper presents a systematic survey of this emerging domain. We begin by examining data construction pipelines, covering automated collection and synthesis approaches. We then provide a comprehensive analysis of methodologies, spanning training-free frameworks with their modular components to training-based techniques, including supervised fine-tuning and reinforcement learning. Subsequently, we discuss critical analyses of data quality and agent behavior, alongside practical applications. Finally, we identify key challenges and outline promising directions for future research. An open-source repository is maintained at https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution to serve as a dynamic resource in this field.

Vooruitgang en Grenzen van LLM-gestuurde Probleemoplossing in Software Engineering: Een Diepgaand Overzicht

Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey

Samenvatting

Support