Agentische Code-redenering

Samenvatting

Kunnen LLM-agenten codebases verkennen en redeneren over codesemantiek zonder de code uit te voeren? Wij bestuderen deze capaciteit, die wij agent-gebaseerd coderedeneren noemen, en introduceren semi-formeel redeneren: een gestructureerde promptingmethodologie die agenten vereist expliciete premissen te construeren, uitvoeringspaden te traceren en formele conclusies af te leiden. In tegenstelling tot ongestructureerde chain-of-thought fungeert semi-formeel redeneren als een certificaat: de agent kan geen gevallen overslaan of ongefundeerde beweringen doen. Wij evalueren dit aan de hand van drie taken (patch-equivalentieverificatie, foutlokalisatie en codevraagbeantwoording) en tonen aan dat semi-formeel redeneren consistent de nauwkeurigheid bij alle taken verbetert. Voor patchequivalentie verbetert de nauwkeurigheid van 78% naar 88% bij gecureerde voorbeelden en bereikt 93% bij real-world door agenten gegenereerde patches, waarmee het de betrouwbaarheid benadert die nodig is voor uitvoeringsvrije RL-beloningssignalen. Voor codevraagbeantwoording op RubberDuckBench Mohammad et al. (2026) behaalt semi-formeel redeneren 87% nauwkeurigheid. Voor foutlokalisatie op Defects4J Just et al. (2014) verbetert semi-formeel redeneren de Top-5-nauwkeurigheid met 5 procentpunten ten opzichte van standaardredenering. Deze resultaten tonen aan dat gestructureerd agent-gebaseerd redeneren zinvolle semantische code-analyse zonder uitvoering mogelijk maakt, wat praktische toepassingen opent in RL-trainingspipelines, codereviews en statische programma-analyse.

English

Can LLM agents explore codebases and reason about code semantics without executing the code? We study this capability, which we call agentic code reasoning, and introduce semi-formal reasoning: a structured prompting methodology that requires agents to construct explicit premises, trace execution paths, and derive formal conclusions. Unlike unstructured chain-of-thought, semi-formal reasoning acts as a certificate: the agent cannot skip cases or make unsupported claims. We evaluate across three tasks (patch equivalence verification, fault localization, and code question answering) and show that semi-formal reasoning consistently improves accuracy on all of them. For patch equivalence, accuracy improves from 78% to 88% on curated examples and reaches 93% on real-world agent-generated patches, approaching the reliability needed for execution-free RL reward signals. For code question answering on RubberDuckBench Mohammad et al. (2026), semi-formal reasoning achieves 87% accuracy. For fault localization on Defects4J Just et al. (2014), semi-formal reasoning improves Top-5 accuracy by 5 percentage points over standard reasoning. These results demonstrate that structured agentic reasoning enables meaningful semantic code analysis without execution, opening practical applications in RL training pipelines, code review, and static program analysis.

Agentische Code-redenering

Agentic Code Reasoning

Samenvatting

Support