CodeCircuit: Verso l'Inferenza della Correttezza del Codice Generato da LLM tramite Grafi di Attribuzione

Abstract

I paradigmi attuali per la verifica del codice si basano fortemente su meccanismi esterni - come test unitari basati sull'esecuzione o giudici LLM ausiliari - che spesso richiedono un intenso lavoro manuale o sono limitati dalle capacità intrinseche del modello di giudizio. Ciò solleva una questione fondamentale ma ancora inesplorata: è possibile valutare la correttezza funzionale di un LLM puramente dalla sua struttura computazionale interna? Il nostro obiettivo principale è investigare se le dinamiche neurali del modello codifichino segnali internamente decodificabili che siano predittivi della validità logica durante la generazione di codice. Ispirati dalla interpretabilità meccanicistica, proponiamo di trattare la verifica del codice come un compito diagnostico meccanicistico, mappando la traiettoria algoritmica esplicita del modello in grafi di attribuzione a livello di riga. Scomponendo i flussi residui complessi, miriamo a identificare le firme strutturali che distinguono il ragionamento solido dagli errori logici all'interno dei circuiti interni del modello. L'analisi condotta su Python, C++ e Java conferma che i segnali intrinseci di correttezza sono robusti attraverso sintassi diverse. Le caratteristiche topologiche di questi grafi interni predicono la correttezza in modo più affidabile rispetto alle euristiche superficiali e abilitano interventi causali mirati per correggere la logica errata. Questi risultati stabiliscono l'introspezione interna come una proprietà decodificabile per verificare il codice generato. Il nostro codice è disponibile su https://github.com/bruno686/CodeCircuit.

English

Current paradigms for code verification rely heavily on external mechanisms-such as execution-based unit tests or auxiliary LLM judges-which are often labor-intensive or limited by the judging model's own capabilities. This raises a fundamental, yet unexplored question: Can an LLM's functional correctness be assessed purely from its internal computational structure? Our primary objective is to investigate whether the model's neural dynamics encode internally decodable signals that are predictive of logical validity during code generation. Inspired by mechanistic interpretability, we propose to treat code verification as a mechanistic diagnostic task, mapping the model's explicit algorithmic trajectory into line-level attribution graphs. By decomposing complex residual flows, we aim to identify the structural signatures that distinguish sound reasoning from logical failure within the model's internal circuits. Analysis across Python, C++, and Java confirms that intrinsic correctness signals are robust across diverse syntaxes. Topological features from these internal graphs predict correctness more reliably than surface heuristics and enable targeted causal interventions to fix erroneous logic. These findings establish internal introspection as a decodable property for verifying generated code. Our code is at https:// github.com/bruno686/CodeCircuit.

CodeCircuit: Verso l'Inferenza della Correttezza del Codice Generato da LLM tramite Grafi di Attribuzione

CodeCircuit: Toward Inferring LLM-Generated Code Correctness via Attribution Graphs

Abstract

Support