Razonamiento de Código Agéntico

Resumen

¿Pueden los agentes de LLM explorar bases de código y razonar sobre la semántica del código sin ejecutarlo? Estudiamos esta capacidad, a la que llamamos razonamiento de código agéntico, e introducimos el razonamiento semiformal: una metodología de *prompting* estructurado que requiere que los agentes construyan premisas explícitas, tracen rutas de ejecución y deriven conclusiones formales. A diferencia de una cadena de pensamiento no estructurada, el razonamiento semiformal actúa como un certificado: el agente no puede omitir casos ni hacer afirmaciones sin apoyo. Evaluamos en tres tareas (verificación de equivalencia de parches, localización de fallos y respuesta a preguntas sobre código) y mostramos que el razonamiento semiformal mejora consistentemente la precisión en todas ellas. Para la equivalencia de parches, la precisión mejora del 78% al 88% en ejemplos seleccionados y alcanza el 93% en parches generados por agentes del mundo real, acercándose a la fiabilidad necesaria para señales de recompensa de RL libres de ejecución. Para la respuesta a preguntas sobre código en RubberDuckBench Mohammad et al. (2026), el razonamiento semiformal logra una precisión del 87%. Para la localización de fallos en Defects4J Just et al. (2014), el razonamiento semiformal mejora la precisión Top-5 en 5 puntos porcentuales respecto al razonamiento estándar. Estos resultados demuestran que el razonamiento agéntico estructurado permite un análisis semántico de código significativo sin ejecución, abriendo aplicaciones prácticas en pipelines de entrenamiento de RL, revisión de código y análisis estático de programas.

English

Can LLM agents explore codebases and reason about code semantics without executing the code? We study this capability, which we call agentic code reasoning, and introduce semi-formal reasoning: a structured prompting methodology that requires agents to construct explicit premises, trace execution paths, and derive formal conclusions. Unlike unstructured chain-of-thought, semi-formal reasoning acts as a certificate: the agent cannot skip cases or make unsupported claims. We evaluate across three tasks (patch equivalence verification, fault localization, and code question answering) and show that semi-formal reasoning consistently improves accuracy on all of them. For patch equivalence, accuracy improves from 78% to 88% on curated examples and reaches 93% on real-world agent-generated patches, approaching the reliability needed for execution-free RL reward signals. For code question answering on RubberDuckBench Mohammad et al. (2026), semi-formal reasoning achieves 87% accuracy. For fault localization on Defects4J Just et al. (2014), semi-formal reasoning improves Top-5 accuracy by 5 percentage points over standard reasoning. These results demonstrate that structured agentic reasoning enables meaningful semantic code analysis without execution, opening practical applications in RL training pipelines, code review, and static program analysis.

Razonamiento de Código Agéntico

Agentic Code Reasoning

Resumen

Support