Sé qué LLM escribió tu código el verano pasado: Estilometría de código generado por LLM para atribución de autoría
I Know Which LLM Wrote Your Code Last Summer: LLM generated Code Stylometry for Authorship Attribution
June 18, 2025
Autores: Tamas Bisztray, Bilel Cherif, Richard A. Dubniczky, Nils Gruschka, Bertalan Borsos, Mohamed Amine Ferrag, Attila Kovacs, Vasileios Mavroeidis, Norbert Tihanyi
cs.AI
Resumen
La detección de código generado por IA, deepfakes y otro contenido sintético es un desafío de investigación emergente. A medida que el código generado por modelos de lenguaje de gran escala (LLMs) se vuelve más común, identificar el modelo específico detrás de cada muestra es cada vez más importante. Este artículo presenta el primer estudio sistemático de atribución de autoría de LLMs para programas en C. Lanzamos CodeT5-Authorship, un modelo novedoso que utiliza únicamente las capas del codificador de la arquitectura original de codificador-decodificador de CodeT5, descartando el decodificador para centrarse en la clasificación. La salida del codificador de nuestro modelo (primer token) se pasa a través de una cabeza de clasificación de dos capas con activación GELU y dropout, produciendo una distribución de probabilidad sobre los posibles autores. Para evaluar nuestro enfoque, introducimos LLM-AuthorBench, un benchmark de 32,000 programas en C compilables generados por ocho LLMs de última generación en diversas tareas. Comparamos nuestro modelo con siete clasificadores tradicionales de aprendizaje automático y ocho modelos de transformadores ajustados, incluyendo BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer y Qwen2-1.5B ajustado con LoRA. En clasificación binaria, nuestro modelo alcanza un 97.56% de precisión al distinguir programas en C generados por modelos estrechamente relacionados como GPT-4.1 y GPT-4o, y un 95.40% de precisión en la atribución multiclase entre cinco LLMs líderes (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3 y DeepSeek-V3). Para apoyar la ciencia abierta, publicamos la arquitectura de CodeT5-Authorship, el benchmark LLM-AuthorBench y todos los scripts relevantes de Google Colab en GitHub: https://github.com/LLMauthorbench/.
English
Detecting AI-generated code, deepfakes, and other synthetic content is an
emerging research challenge. As code generated by Large Language Models (LLMs)
becomes more common, identifying the specific model behind each sample is
increasingly important. This paper presents the first systematic study of LLM
authorship attribution for C programs. We released CodeT5-Authorship, a novel
model that uses only the encoder layers from the original CodeT5
encoder-decoder architecture, discarding the decoder to focus on
classification. Our model's encoder output (first token) is passed through a
two-layer classification head with GELU activation and dropout, producing a
probability distribution over possible authors. To evaluate our approach, we
introduce LLM-AuthorBench, a benchmark of 32,000 compilable C programs
generated by eight state-of-the-art LLMs across diverse tasks. We compare our
model to seven traditional ML classifiers and eight fine-tuned transformer
models, including BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3,
Longformer, and LoRA-fine-tuned Qwen2-1.5B. In binary classification, our model
achieves 97.56% accuracy in distinguishing C programs generated by closely
related models such as GPT-4.1 and GPT-4o, and 95.40% accuracy for multi-class
attribution among five leading LLMs (Gemini 2.5 Flash, Claude 3.5 Haiku,
GPT-4.1, Llama 3.3, and DeepSeek-V3). To support open science, we release the
CodeT5-Authorship architecture, the LLM-AuthorBench benchmark, and all relevant
Google Colab scripts on GitHub: https://github.com/LLMauthorbench/.