Ragionamento Codice Agente

Abstract

Gli agenti LLM possono esplorare codebases e ragionare sulla semantica del codice senza eseguirlo? Studiamo questa capacità, che chiamiamo ragionamento codicale agente, e introduciamo il ragionamento semi-formale: una metodologia di prompting strutturata che richiede agli agenti di costruire premesse esplicite, tracciare percorsi di esecuzione e derivare conclusioni formali. A differenza della catena di pensiero non strutturata, il ragionamento semi-formale funge da certificato: l'agente non può saltare casi o avanzare affermazioni non supportate. Valutiamo tre task (verifica dell'equivalenza delle patch, localizzazione dei guasti e risposta a domande sul codice) e dimostriamo che il ragionamento semi-formale migliora costantemente l'accuratezza in tutti. Per l'equivalenza delle patch, l'accuratezza migliora dal 78% all'88% su esempi curati e raggiunge il 93% su patch generate da agenti nel mondo reale, avvicinandosi all'affidabilità necessaria per segnali di ricompensa RL senza esecuzione. Per le risposte a domande sul codice su RubberDuckBench Mohammad et al. (2026), il ragionamento semi-formale raggiunge un'accuratezza dell'87%. Per la localizzazione dei guasti su Defects4J Just et al. (2014), il ragionamento semi-formale migliora l'accuratezza Top-5 di 5 punti percentuali rispetto al ragionamento standard. Questi risultati dimostrano che il ragionamento agente strutturato abilita un'analisi semantica significativa del codice senza esecuzione, aprendo applicazioni pratiche nelle pipeline di addestramento RL, nella revisione del codice e nell'analisi statica dei programmi.

English

Can LLM agents explore codebases and reason about code semantics without executing the code? We study this capability, which we call agentic code reasoning, and introduce semi-formal reasoning: a structured prompting methodology that requires agents to construct explicit premises, trace execution paths, and derive formal conclusions. Unlike unstructured chain-of-thought, semi-formal reasoning acts as a certificate: the agent cannot skip cases or make unsupported claims. We evaluate across three tasks (patch equivalence verification, fault localization, and code question answering) and show that semi-formal reasoning consistently improves accuracy on all of them. For patch equivalence, accuracy improves from 78% to 88% on curated examples and reaches 93% on real-world agent-generated patches, approaching the reliability needed for execution-free RL reward signals. For code question answering on RubberDuckBench Mohammad et al. (2026), semi-formal reasoning achieves 87% accuracy. For fault localization on Defects4J Just et al. (2014), semi-formal reasoning improves Top-5 accuracy by 5 percentage points over standard reasoning. These results demonstrate that structured agentic reasoning enables meaningful semantic code analysis without execution, opening practical applications in RL training pipelines, code review, and static program analysis.

Ragionamento Codice Agente

Agentic Code Reasoning

Abstract

Support