CodeCircuit : Vers l'inférence de l'exactitude du code généré par les LLM via des graphes d'attribution

papers.abstract

Les paradigmes actuels de vérification de code reposent fortement sur des mécanismes externes - tels que des tests unitaires basés sur l'exécution ou des juges LLM auxiliaires - qui sont souvent laborieux ou limités par les capacités propres du modèle évaluateur. Cela soulève une question fondamentale mais encore inexplorée : la correction fonctionnelle d'un LLM peut-elle être évaluée uniquement à partir de sa structure computationnelle interne ? Notre objectif principal est d'étudier si les dynamiques neuronales du modèle encodent des signaux internes décodables qui sont prédictifs de la validité logique lors de la génération de code. Inspirés par l'interprétabilité mécaniste, nous proposons de traiter la vérification de code comme une tâche de diagnostic mécaniste, en cartographiant la trajectoire algorithmique explicite du modèle en graphes d'attribution au niveau ligne. En décomposant les flux résiduels complexes, nous visons à identifier les signatures structurelles qui distinguent le raisonnement valide de l'échec logique au sein des circuits internes du modèle. L'analyse menée sur Python, C++ et Java confirme que les signaux de correction intrinsèques sont robustes across différentes syntaxes. Les caractéristiques topologiques de ces graphes internes prédisent la correction plus fidèlement que les heuristiques de surface et permettent des interventions causales ciblées pour corriger la logique erronée. Ces résultats établissent l'introspection interne comme une propriété décodable pour vérifier le code généré. Notre code est disponible à l'adresse https://github.com/bruno686/CodeCircuit.

English

Current paradigms for code verification rely heavily on external mechanisms-such as execution-based unit tests or auxiliary LLM judges-which are often labor-intensive or limited by the judging model's own capabilities. This raises a fundamental, yet unexplored question: Can an LLM's functional correctness be assessed purely from its internal computational structure? Our primary objective is to investigate whether the model's neural dynamics encode internally decodable signals that are predictive of logical validity during code generation. Inspired by mechanistic interpretability, we propose to treat code verification as a mechanistic diagnostic task, mapping the model's explicit algorithmic trajectory into line-level attribution graphs. By decomposing complex residual flows, we aim to identify the structural signatures that distinguish sound reasoning from logical failure within the model's internal circuits. Analysis across Python, C++, and Java confirms that intrinsic correctness signals are robust across diverse syntaxes. Topological features from these internal graphs predict correctness more reliably than surface heuristics and enable targeted causal interventions to fix erroneous logic. These findings establish internal introspection as a decodable property for verifying generated code. Our code is at https:// github.com/bruno686/CodeCircuit.

CodeCircuit : Vers l'inférence de l'exactitude du code généré par les LLM via des graphes d'attribution

CodeCircuit: Toward Inferring LLM-Generated Code Correctness via Attribution Graphs

papers.abstract

Support