Достижения и перспективы решения задач программной инженерии на основе больших языковых моделей: всесторонний обзор

Аннотация

Разрешение проблем, сложная задача в области программной инженерии, неотъемлемая от реальной разработки, стала важным вызовом для искусственного интеллекта. Создание бенчмарков, таких как SWE-bench, показало, что эта задача является чрезвычайно сложной для больших языковых моделей, что, в свою очередь, значительно ускорило развитие автономных агентов программирования. В данной статье представлен систематический обзор этой формирующейся области. Мы начинаем с изучения конвейеров построения данных, охватывающих подходы к автоматизированному сбору и синтезу. Затем мы проводим всесторонний анализ методологий, от беспоисковых фреймворков с их модульными компонентами до методов, основанных на обучении, включая контролируемую тонкую настройку и обучение с подкреплением. Впоследствии мы обсуждаем критический анализ качества данных и поведения агентов, а также практические приложения. Наконец, мы определяем ключевые проблемы и намечаем перспективные направления для будущих исследований. Открытый репозиторий поддерживается по адресу https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution и служит динамическим ресурсом в данной области.

English

Issue resolution, a complex Software Engineering (SWE) task integral to real-world development, has emerged as a compelling challenge for artificial intelligence. The establishment of benchmarks like SWE-bench revealed this task as profoundly difficult for large language models, thereby significantly accelerating the evolution of autonomous coding agents. This paper presents a systematic survey of this emerging domain. We begin by examining data construction pipelines, covering automated collection and synthesis approaches. We then provide a comprehensive analysis of methodologies, spanning training-free frameworks with their modular components to training-based techniques, including supervised fine-tuning and reinforcement learning. Subsequently, we discuss critical analyses of data quality and agent behavior, alongside practical applications. Finally, we identify key challenges and outline promising directions for future research. An open-source repository is maintained at https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution to serve as a dynamic resource in this field.

Достижения и перспективы решения задач программной инженерии на основе больших языковых моделей: всесторонний обзор

Advances and Frontiers of LLM-based Issue Resolution in Software Engineering: A Comprehensive Survey

Аннотация

Support