Sé qué LLM escribió tu código el verano pasado: Estilometría de código generado por LLM para atribución de autoría

Resumen

La detección de código generado por IA, deepfakes y otro contenido sintético es un desafío de investigación emergente. A medida que el código generado por modelos de lenguaje de gran escala (LLMs) se vuelve más común, identificar el modelo específico detrás de cada muestra es cada vez más importante. Este artículo presenta el primer estudio sistemático de atribución de autoría de LLMs para programas en C. Lanzamos CodeT5-Authorship, un modelo novedoso que utiliza únicamente las capas del codificador de la arquitectura original de codificador-decodificador de CodeT5, descartando el decodificador para centrarse en la clasificación. La salida del codificador de nuestro modelo (primer token) se pasa a través de una cabeza de clasificación de dos capas con activación GELU y dropout, produciendo una distribución de probabilidad sobre los posibles autores. Para evaluar nuestro enfoque, introducimos LLM-AuthorBench, un benchmark de 32,000 programas en C compilables generados por ocho LLMs de última generación en diversas tareas. Comparamos nuestro modelo con siete clasificadores tradicionales de aprendizaje automático y ocho modelos de transformadores ajustados, incluyendo BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer y Qwen2-1.5B ajustado con LoRA. En clasificación binaria, nuestro modelo alcanza un 97.56% de precisión al distinguir programas en C generados por modelos estrechamente relacionados como GPT-4.1 y GPT-4o, y un 95.40% de precisión en la atribución multiclase entre cinco LLMs líderes (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3 y DeepSeek-V3). Para apoyar la ciencia abierta, publicamos la arquitectura de CodeT5-Authorship, el benchmark LLM-AuthorBench y todos los scripts relevantes de Google Colab en GitHub: https://github.com/LLMauthorbench/.

English

Detecting AI-generated code, deepfakes, and other synthetic content is an emerging research challenge. As code generated by Large Language Models (LLMs) becomes more common, identifying the specific model behind each sample is increasingly important. This paper presents the first systematic study of LLM authorship attribution for C programs. We released CodeT5-Authorship, a novel model that uses only the encoder layers from the original CodeT5 encoder-decoder architecture, discarding the decoder to focus on classification. Our model's encoder output (first token) is passed through a two-layer classification head with GELU activation and dropout, producing a probability distribution over possible authors. To evaluate our approach, we introduce LLM-AuthorBench, a benchmark of 32,000 compilable C programs generated by eight state-of-the-art LLMs across diverse tasks. We compare our model to seven traditional ML classifiers and eight fine-tuned transformer models, including BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer, and LoRA-fine-tuned Qwen2-1.5B. In binary classification, our model achieves 97.56% accuracy in distinguishing C programs generated by closely related models such as GPT-4.1 and GPT-4o, and 95.40% accuracy for multi-class attribution among five leading LLMs (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3, and DeepSeek-V3). To support open science, we release the CodeT5-Authorship architecture, the LLM-AuthorBench benchmark, and all relevant Google Colab scripts on GitHub: https://github.com/LLMauthorbench/.

Sé qué LLM escribió tu código el verano pasado: Estilometría de código generado por LLM para atribución de autoría

I Know Which LLM Wrote Your Code Last Summer: LLM generated Code Stylometry for Authorship Attribution

Resumen

Support