Агентное программное рассуждение

Аннотация

Способны ли агенты на основе больших языковых моделей исследовать базы кода и рассуждать о семантике программ без их выполнения? Мы изучаем эту возможность, которую называем агентным семантическим анализом кода, и представляем полуформальное рассуждение: структурированную методологию промптинга, требующую от агентов построения явных предпосылок, трассировки путей выполнения и вывода формальных заключений. В отличие от неструктурированной цепочки рассуждений, полуформальное рассуждение служит сертификатом: агент не может пропустить случаи или делать неподтвержденные утверждения. Мы проводим оценку на трех задачах (верификация эквивалентности патчей, локализация дефектов и ответы на вопросы по коду) и показываем, что полуформальное рассуждение стабильно повышает точность во всех из них. Для верификации эквивалентности патчей точность повышается с 78% до 88% на курируемых примерах и достигает 93% на реальных патчах, сгенерированных агентами, приближаясь к надежности, необходимой для сигналов вознаграждения в обучении с подкреплением без выполнения кода. Для ответов на вопросы по коду на наборе RubberDuckBench (Mohammad et al., 2026) полуформальное рассуждение достигает точности 87%. Для локализации дефектов на наборе Defects4J (Just et al., 2014) полуформальное рассуждение улучшает точность Top-5 на 5 процентных пунктов по сравнению со стандартным рассуждением. Эти результаты демонстрируют, что структурированный агентный анализ позволяет проводить содержательный семантический анализ кода без выполнения, открывая практические приложения в конвейерах обучения с подкреплением, ревью кода и статическом анализе программ.

English

Can LLM agents explore codebases and reason about code semantics without executing the code? We study this capability, which we call agentic code reasoning, and introduce semi-formal reasoning: a structured prompting methodology that requires agents to construct explicit premises, trace execution paths, and derive formal conclusions. Unlike unstructured chain-of-thought, semi-formal reasoning acts as a certificate: the agent cannot skip cases or make unsupported claims. We evaluate across three tasks (patch equivalence verification, fault localization, and code question answering) and show that semi-formal reasoning consistently improves accuracy on all of them. For patch equivalence, accuracy improves from 78% to 88% on curated examples and reaches 93% on real-world agent-generated patches, approaching the reliability needed for execution-free RL reward signals. For code question answering on RubberDuckBench Mohammad et al. (2026), semi-formal reasoning achieves 87% accuracy. For fault localization on Defects4J Just et al. (2014), semi-formal reasoning improves Top-5 accuracy by 5 percentage points over standard reasoning. These results demonstrate that structured agentic reasoning enables meaningful semantic code analysis without execution, opening practical applications in RL training pipelines, code review, and static program analysis.

Агентное программное рассуждение

Agentic Code Reasoning

Аннотация

Support