LocAgent: Grafisch-Gestuurde LLM-Agenten voor Codelokalisatie

Samenvatting

Codelokalisatie—het precies identificeren waar in een codebase wijzigingen moeten worden aangebracht—is een fundamentele maar uitdagende taak in softwareonderhoud. Bestaande benaderingen hebben moeite om efficiënt door complexe codebases te navigeren bij het identificeren van relevante codesecties. De uitdaging ligt in het overbruggen van natuurlijke taalprobleembeschrijvingen met de juiste code-elementen, wat vaak redenering vereist over hiërarchische structuren en meerdere afhankelijkheden. Wij introduceren LocAgent, een framework dat codelokalisatie aanpakt via een op grafieken gebaseerde representatie. Door codebases te parseren in gerichte heterogene grafieken, creëert LocAgent een lichtgewicht representatie die codestructuren (bestanden, klassen, functies) en hun afhankelijkheden (imports, aanroepen, overerving) vastlegt, waardoor LLM-agents effectief kunnen zoeken en relevante entiteiten kunnen lokaliseren via krachtige multi-hop redenering. Experimentele resultaten op real-world benchmarks tonen aan dat onze aanpak de nauwkeurigheid van codelokalisatie aanzienlijk verbetert. Opmerkelijk is dat onze methode met het fijn afgestelde Qwen-2.5-Coder-Instruct-32B model vergelijkbare resultaten behaalt met SOTA propriëtaire modellen tegen sterk gereduceerde kosten (ongeveer 86% reductie), met een nauwkeurigheid van tot 92,7% op bestandsniveau lokalisatie, terwijl het succespercentage van downstream GitHub-issue-oplossingen met 12% verbetert voor meerdere pogingen (Pass@10). Onze code is beschikbaar op https://github.com/gersteinlab/LocAgent.

English

Code localization--identifying precisely where in a codebase changes need to be made--is a fundamental yet challenging task in software maintenance. Existing approaches struggle to efficiently navigate complex codebases when identifying relevant code sections. The challenge lies in bridging natural language problem descriptions with the appropriate code elements, often requiring reasoning across hierarchical structures and multiple dependencies. We introduce LocAgent, a framework that addresses code localization through graph-based representation. By parsing codebases into directed heterogeneous graphs, LocAgent creates a lightweight representation that captures code structures (files, classes, functions) and their dependencies (imports, invocations, inheritance), enabling LLM agents to effectively search and locate relevant entities through powerful multi-hop reasoning. Experimental results on real-world benchmarks demonstrate that our approach significantly enhances accuracy in code localization. Notably, our method with the fine-tuned Qwen-2.5-Coder-Instruct-32B model achieves comparable results to SOTA proprietary models at greatly reduced cost (approximately 86% reduction), reaching up to 92.7% accuracy on file-level localization while improving downstream GitHub issue resolution success rates by 12% for multiple attempts (Pass@10). Our code is available at https://github.com/gersteinlab/LocAgent.

LocAgent: Grafisch-Gestuurde LLM-Agenten voor Codelokalisatie

LocAgent: Graph-Guided LLM Agents for Code Localization

Samenvatting

Support