Agentisches Code-Reasoning

Zusammenfassung

Können LLM-Agenten Codebasen erkunden und über Codesemantik nachdenken, ohne den Code auszuführen? Wir untersuchen diese Fähigkeit, die wir als agentenbasiertes Code-Reasoning bezeichnen, und führen semi-formales Reasoning ein: eine strukturierte Prompting-Methodik, die von Agenten verlangt, explizite Prämissen zu konstruieren, Ausführungspfade nachzuverfolgen und formale Schlussfolgerungen abzuleiten. Im Gegensatz zu unstrukturierten Gedankenketten (Chain-of-Thought) dient semi-formales Reasoning als Zertifikat: Der Agent kann keine Fälle überspringen oder unbelegte Behauptungen aufstellen. Wir evaluieren drei Aufgaben (Patch-Äquivalenzverifikation, Fehlerlokalisierung und Code-Fragebeantwortung) und zeigen, dass semi-formales Reasoning durchgängig die Genauigkeit bei allen Aufgaben verbessert. Bei der Patch-Äquivalenz steigt die Genauigkeit von 78 % auf 88 % bei kuratierten Beispielen und erreicht 93 % bei realen, von Agenten generierten Patches – was sich der für ausführungsfreie RL-Belohnungssignale benötigten Zuverlässigkeit annähert. Bei der Code-Fragebeantwortung auf RubberDuckBench Mohammad et al. (2026) erreicht semi-formales Reasoning eine Genauigkeit von 87 %. Bei der Fehlerlokalisierung auf Defects4J Just et al. (2014) verbessert semi-formales Reasoning die Top-5-Genauigkeit um 5 Prozentpunkte gegenüber Standard-Reasoning. Diese Ergebnisse demonstrieren, dass strukturiertes agentenbasiertes Reasoning bedeutungsvolle semantische Codeanalyse ohne Ausführung ermöglicht und praktische Anwendungen in RL-Trainingspipelines, Code-Reviews und statischer Programmanalyse eröffnet.

English

Can LLM agents explore codebases and reason about code semantics without executing the code? We study this capability, which we call agentic code reasoning, and introduce semi-formal reasoning: a structured prompting methodology that requires agents to construct explicit premises, trace execution paths, and derive formal conclusions. Unlike unstructured chain-of-thought, semi-formal reasoning acts as a certificate: the agent cannot skip cases or make unsupported claims. We evaluate across three tasks (patch equivalence verification, fault localization, and code question answering) and show that semi-formal reasoning consistently improves accuracy on all of them. For patch equivalence, accuracy improves from 78% to 88% on curated examples and reaches 93% on real-world agent-generated patches, approaching the reliability needed for execution-free RL reward signals. For code question answering on RubberDuckBench Mohammad et al. (2026), semi-formal reasoning achieves 87% accuracy. For fault localization on Defects4J Just et al. (2014), semi-formal reasoning improves Top-5 accuracy by 5 percentage points over standard reasoning. These results demonstrate that structured agentic reasoning enables meaningful semantic code analysis without execution, opening practical applications in RL training pipelines, code review, and static program analysis.

Agentisches Code-Reasoning

Agentic Code Reasoning

Zusammenfassung

Support