GraphLocator: Графовое причинное рассуждение для локализации дефектов

Аннотация

Задача локализации проблем направлена на определение мест в репозитории программного обеспечения, которые требуют изменений, исходя из описания проблемы на естественном языке. Эта задача является фундаментальной, но сложной в области автоматизированной разработки программного обеспечения из-за семантического разрыва между описанием проблемы и реализацией исходного кода. Этот разрыв проявляется в двух типах несоответствий: (1) несоответствие симптома и причины, когда описания не раскрывают явно корневые причины; (2) несоответствие "один-ко-многим", когда одна проблема соответствует нескольким взаимозависимым сущностям кода. Для устранения этих несоответствий мы предлагаем GraphLocator — подход, который смягчает несоответствие симптома и причины за счет обнаружения причинно-следственной структуры и разрешает несоответствие "один-ко-многим" с помощью динамического разделения проблемы. Ключевым артефактом является причинно-следственный граф проблемы (CIG), в котором вершины представляют обнаруженные подпроблемы вместе с связанными с ними сущностями кода, а рёбра кодируют причинно-следственные зависимости между ними. Рабочий процесс GraphLocator состоит из двух фаз: локализация вершин-симптомов и динамическое построение CIG; сначала идентифицируются местоположения симптомов в графе репозитория, затем CIG динамически расширяется путём итеративного анализа соседних вершин. Эксперименты на трёх реальных наборах данных демонстрируют эффективность GraphLocator: (1) По сравнению с базовыми методами, GraphLocator достигает более точной локализации со средним улучшением +19,49% по полноте на уровне функций и +11,89% по точности. (2) GraphLocator превосходит базовые методы в сценариях как несоответствия симптома и причины, так и несоответствия "один-ко-многим", достигая улучшения полноты на +16,44% и +19,18%, и улучшения точности на +7,78% и +13,23% соответственно. (3) CIG, сгенерированный GraphLocator, даёт наибольшее относительное улучшение, приводя к росту производительности на 28,74% в последующей задаче устранения проблем.

English

The issue localization task aims to identify the locations in a software repository that requires modification given a natural language issue description. This task is fundamental yet challenging in automated software engineering due to the semantic gap between issue description and source code implementation. This gap manifests as two mismatches:(1) symptom-to-cause mismatches, where descriptions do not explicitly reveal underlying root causes; (2) one-to-many mismatches, where a single issue corresponds to multiple interdependent code entities. To address these two mismatches, we propose GraphLocator, an approach that mitigates symptom-to-cause mismatches through causal structure discovering and resolves one-to-many mismatches via dynamic issue disentangling. The key artifact is the causal issue graph (CIG), in which vertices represent discovered sub-issues along with their associated code entities, and edges encode the causal dependencies between them. The workflow of GraphLocator consists of two phases: symptom vertices locating and dynamic CIG discovering; it first identifies symptom locations on the repository graph, then dynamically expands the CIG by iteratively reasoning over neighboring vertices. Experiments on three real-world datasets demonstrates the effectiveness of GraphLocator: (1) Compared with baselines, GraphLocator achieves more accurate localization with average improvements of +19.49% in function-level recall and +11.89% in precision. (2) GraphLocator outperforms baselines on both symptom-to-cause and one-to-many mismatch scenarios, achieving recall improvement of +16.44% and +19.18%, precision improvement of +7.78% and +13.23%, respectively. (3) The CIG generated by GraphLocator yields the highest relative improvement, resulting in a 28.74% increase in performance on downstream resolving task.

GraphLocator: Графовое причинное рассуждение для локализации дефектов

GraphLocator: Graph-guided Causal Reasoning for Issue Localization

Аннотация

Support