Raisonnement par code agentique

Résumé

Les agents de LLM peuvent-ils explorer des bases de code et raisonner sur la sémantique du code sans l'exécuter ? Nous étudions cette capacité, que nous appelons le raisonnement agentique sur le code, et introduisons le raisonnement semi-formel : une méthodologie de prompting structuré qui oblige les agents à construire des prémisses explicites, tracer des chemins d'exécution et dériver des conclusions formelles. Contrairement au chain-of-thought non structuré, le raisonnement semi-formel agit comme un certificat : l'agent ne peut pas ignorer des cas ou faire des affirmations non étayées. Nous évaluons cette approche sur trois tâches (vérification d'équivalence de correctifs, localisation de fautes et réponse à des questions sur le code) et montrons que le raisonnement semi-formel améliore constamment la précision sur toutes ces tâches. Pour l'équivalence de correctifs, la précision passe de 78% à 88% sur des exemples curés et atteint 93% sur des correctifs générés par des agents en conditions réelles, approchant la fiabilité nécessaire pour des signaux de récompense RL sans exécution. Pour les réponses aux questions sur le code sur RubberDuckBench Mohammad et al. (2026), le raisonnement semi-formel atteint une précision de 87%. Pour la localisation de fautes sur Defects4J Just et al. (2014), le raisonnement semi-formel améliore la précision Top-5 de 5 points de pourcentage par rapport au raisonnement standard. Ces résultats démontrent que le raisonnement agentique structuré permet une analyse sémantique significative du code sans exécution, ouvrant des applications pratiques dans les pipelines d'entraînement RL, la revue de code et l'analyse statique de programmes.

English

Can LLM agents explore codebases and reason about code semantics without executing the code? We study this capability, which we call agentic code reasoning, and introduce semi-formal reasoning: a structured prompting methodology that requires agents to construct explicit premises, trace execution paths, and derive formal conclusions. Unlike unstructured chain-of-thought, semi-formal reasoning acts as a certificate: the agent cannot skip cases or make unsupported claims. We evaluate across three tasks (patch equivalence verification, fault localization, and code question answering) and show that semi-formal reasoning consistently improves accuracy on all of them. For patch equivalence, accuracy improves from 78% to 88% on curated examples and reaches 93% on real-world agent-generated patches, approaching the reliability needed for execution-free RL reward signals. For code question answering on RubberDuckBench Mohammad et al. (2026), semi-formal reasoning achieves 87% accuracy. For fault localization on Defects4J Just et al. (2014), semi-formal reasoning improves Top-5 accuracy by 5 percentage points over standard reasoning. These results demonstrate that structured agentic reasoning enables meaningful semantic code analysis without execution, opening practical applications in RL training pipelines, code review, and static program analysis.

Raisonnement par code agentique

Agentic Code Reasoning

Résumé

Support