Raciocínio de Código Agente

Resumo

Os agentes de LLM conseguem explorar bases de código e raciocinar sobre a semântica do código sem o executar? Estudamos esta capacidade, a que chamamos raciocínio de código agentivo, e introduzimos o *raciocínio semiformal*: uma metodologia estruturada de *prompting* que exige que os agentes construam premissas explícitas, tracem caminhos de execução e derivem conclusões formais. Ao contrário de uma cadeia de pensamento não estruturada, o raciocínio semiformal atua como um certificado: o agente não pode ignorar casos ou fazer afirmações sem suporte. Avaliamos três tarefas (verificação de equivalência de *patches*, localização de falhas e resposta a perguntas sobre código) e mostramos que o raciocínio semiformal melhora consistentemente a precisão em todas elas. Para a equivalência de *patches*, a precisão aumenta de 78% para 88% em exemplos curados e atinge 93% em *patches* reais gerados por agentes, aproximando-se da confiabilidade necessária para sinais de recompensa de RL sem execução. Para resposta a perguntas sobre código no RubberDuckBench Mohammad et al. (2026), o raciocínio semiformal atinge 87% de precisão. Para a localização de falhas no Defects4J Just et al. (2014), o raciocínio semiformal melhora a precisão Top-5 em 5 pontos percentuais em relação ao raciocínio padrão. Estes resultados demonstram que o raciocínio agentivo estruturado permite uma análise semântica de código significativa sem execução, abrindo aplicações práticas em *pipelines* de treino de RL, revisão de código e análise estática de programas.

English

Can LLM agents explore codebases and reason about code semantics without executing the code? We study this capability, which we call agentic code reasoning, and introduce semi-formal reasoning: a structured prompting methodology that requires agents to construct explicit premises, trace execution paths, and derive formal conclusions. Unlike unstructured chain-of-thought, semi-formal reasoning acts as a certificate: the agent cannot skip cases or make unsupported claims. We evaluate across three tasks (patch equivalence verification, fault localization, and code question answering) and show that semi-formal reasoning consistently improves accuracy on all of them. For patch equivalence, accuracy improves from 78% to 88% on curated examples and reaches 93% on real-world agent-generated patches, approaching the reliability needed for execution-free RL reward signals. For code question answering on RubberDuckBench Mohammad et al. (2026), semi-formal reasoning achieves 87% accuracy. For fault localization on Defects4J Just et al. (2014), semi-formal reasoning improves Top-5 accuracy by 5 percentage points over standard reasoning. These results demonstrate that structured agentic reasoning enables meaningful semantic code analysis without execution, opening practical applications in RL training pipelines, code review, and static program analysis.

Raciocínio de Código Agente

Agentic Code Reasoning

Resumo

Support