CodeCircuit: к определению корректности кода, сгенерированного большими языковыми моделями, с помощью графов атрибуции

Аннотация

Современные парадигмы верификации кода в значительной степени опираются на внешние механизмы — такие как модульные тесты на основе выполнения или вспомогательные LLM-арбитры, — которые часто требуют больших трудозатрат или ограничены возможностями самой судейской модели. Это поднимает фундаментальный, но остающийся без внимания вопрос: можно ли оценить функциональную корректность LLM, исходя исключительно из её внутренней вычислительной структуры? Наша основная цель — исследовать, кодируют ли нейродинамики модели внутренне декодируемые сигналы, предсказывающие логическую корректность в процессе генерации кода. Вдохновляясь методами механистической интерпретируемости, мы предлагаем рассматривать верификацию кода как задачу механистической диагностики, преобразуя явную алгоритмическую траекторию модели в графы атрибуции на уровне строк. Декомпозируя сложные остаточные потоки, мы стремимся выявить структурные сигнатуры, которые различают корректные рассуждения и логические сбои внутри внутренних цепей модели. Анализ на примерах Python, C++ и Java подтверждает, что внутренние сигналы корректности устойчивы для различных синтаксисов. Топологические особенности этих внутренних графов предсказывают корректность надежнее, чем поверхностные эвристики, и позволяют осуществлять целенаправленные причинно-следственные вмешательства для исправления ошибочной логики. Эти результаты устанавливают внутреннюю интроспекцию как декодируемое свойство для верификации генерируемого кода. Наш код доступен по адресу https://github.com/bruno686/CodeCircuit.

English

Current paradigms for code verification rely heavily on external mechanisms-such as execution-based unit tests or auxiliary LLM judges-which are often labor-intensive or limited by the judging model's own capabilities. This raises a fundamental, yet unexplored question: Can an LLM's functional correctness be assessed purely from its internal computational structure? Our primary objective is to investigate whether the model's neural dynamics encode internally decodable signals that are predictive of logical validity during code generation. Inspired by mechanistic interpretability, we propose to treat code verification as a mechanistic diagnostic task, mapping the model's explicit algorithmic trajectory into line-level attribution graphs. By decomposing complex residual flows, we aim to identify the structural signatures that distinguish sound reasoning from logical failure within the model's internal circuits. Analysis across Python, C++, and Java confirms that intrinsic correctness signals are robust across diverse syntaxes. Topological features from these internal graphs predict correctness more reliably than surface heuristics and enable targeted causal interventions to fix erroneous logic. These findings establish internal introspection as a decodable property for verifying generated code. Our code is at https:// github.com/bruno686/CodeCircuit.

CodeCircuit: к определению корректности кода, сгенерированного большими языковыми моделями, с помощью графов атрибуции

CodeCircuit: Toward Inferring LLM-Generated Code Correctness via Attribution Graphs

Аннотация

Support