CodeCircuit: Hacia la Inferencia de la Corrección del Código Generado por LLM mediante Grafos de Atribución

Resumen

Los paradigmas actuales para verificación de código dependen en gran medida de mecanismos externos—como pruebas unitarias basadas en ejecución o jueces auxiliares basados en LLM—que suelen ser intensivos en mano de obra o están limitados por las capacidades del modelo evaluador. Esto plantea una pregunta fundamental, aunque inexplorada: ¿Puede evaluarse la corrección funcional de un LLM únicamente a partir de su estructura computacional interna? Nuestro objetivo principal es investigar si la dinámica neuronal del modelo codifica señales internamente decodificables que sean predictivas de la validez lógica durante la generación de código. Inspirados por la interpretabilidad mecanicista, proponemos tratar la verificación de código como una tarea de diagnóstico mecanicista, mapeando la trayectoria algorítmica explícita del modelo en grafos de atribución a nivel de línea. Mediante la descomposición de flujos residuales complejos, buscamos identificar las firmas estructurales que distinguen el razonamiento sólido del fallo lógico dentro de los circuitos internos del modelo. El análisis en Python, C++ y Java confirma que las señales intrínsecas de corrección son robustas en diversas sintaxis. Las características topológicas de estos grafos internos predicen la corrección con mayor fiabilidad que las heurísticas superficiales y permiten intervenciones causales dirigidas para corregir lógica errónea. Estos hallazgos establecen la introspección interna como una propiedad decodificable para verificar código generado. Nuestro código está disponible en https:// github.com/bruno686/CodeCircuit.

English

Current paradigms for code verification rely heavily on external mechanisms-such as execution-based unit tests or auxiliary LLM judges-which are often labor-intensive or limited by the judging model's own capabilities. This raises a fundamental, yet unexplored question: Can an LLM's functional correctness be assessed purely from its internal computational structure? Our primary objective is to investigate whether the model's neural dynamics encode internally decodable signals that are predictive of logical validity during code generation. Inspired by mechanistic interpretability, we propose to treat code verification as a mechanistic diagnostic task, mapping the model's explicit algorithmic trajectory into line-level attribution graphs. By decomposing complex residual flows, we aim to identify the structural signatures that distinguish sound reasoning from logical failure within the model's internal circuits. Analysis across Python, C++, and Java confirms that intrinsic correctness signals are robust across diverse syntaxes. Topological features from these internal graphs predict correctness more reliably than surface heuristics and enable targeted causal interventions to fix erroneous logic. These findings establish internal introspection as a decodable property for verifying generated code. Our code is at https:// github.com/bruno686/CodeCircuit.

CodeCircuit: Hacia la Inferencia de la Corrección del Código Generado por LLM mediante Grafos de Atribución

CodeCircuit: Toward Inferring LLM-Generated Code Correctness via Attribution Graphs

Resumen

Support