So Quale LLM Ha Scritto il Tuo Codice Quest'Estate: Stilometria del Codice Generato da LLM per l'Attribuzione di Autorialità

Abstract

Rilevare codice generato da IA, deepfake e altri contenuti sintetici rappresenta una sfida di ricerca emergente. Man mano che il codice generato da Large Language Models (LLM) diventa più comune, identificare il modello specifico dietro ogni campione è sempre più importante. Questo articolo presenta il primo studio sistematico sull'attribuzione di autori LLM per programmi in C. Abbiamo rilasciato CodeT5-Authorship, un modello innovativo che utilizza solo i livelli encoder dell'architettura encoder-decoder originale di CodeT5, scartando il decoder per concentrarsi sulla classificazione. L'output dell'encoder del nostro modello (primo token) viene passato attraverso una testa di classificazione a due strati con attivazione GELU e dropout, producendo una distribuzione di probabilità sui possibili autori. Per valutare il nostro approccio, introduciamo LLM-AuthorBench, un benchmark di 32.000 programmi C compilabili generati da otto LLM all'avanguardia su vari compiti. Confrontiamo il nostro modello con sette classificatori ML tradizionali e otto modelli transformer fine-tunati, tra cui BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer e Qwen2-1.5B fine-tunato con LoRA. Nella classificazione binaria, il nostro modello raggiunge un'accuratezza del 97,56% nel distinguere programmi C generati da modelli strettamente correlati come GPT-4.1 e GPT-4o, e un'accuratezza del 95,40% per l'attribuzione multi-classe tra cinque LLM leader (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3 e DeepSeek-V3). Per supportare la scienza aperta, rilasciamo l'architettura CodeT5-Authorship, il benchmark LLM-AuthorBench e tutti gli script Google Colab rilevanti su GitHub: https://github.com/LLMauthorbench/.

English

Detecting AI-generated code, deepfakes, and other synthetic content is an emerging research challenge. As code generated by Large Language Models (LLMs) becomes more common, identifying the specific model behind each sample is increasingly important. This paper presents the first systematic study of LLM authorship attribution for C programs. We released CodeT5-Authorship, a novel model that uses only the encoder layers from the original CodeT5 encoder-decoder architecture, discarding the decoder to focus on classification. Our model's encoder output (first token) is passed through a two-layer classification head with GELU activation and dropout, producing a probability distribution over possible authors. To evaluate our approach, we introduce LLM-AuthorBench, a benchmark of 32,000 compilable C programs generated by eight state-of-the-art LLMs across diverse tasks. We compare our model to seven traditional ML classifiers and eight fine-tuned transformer models, including BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer, and LoRA-fine-tuned Qwen2-1.5B. In binary classification, our model achieves 97.56% accuracy in distinguishing C programs generated by closely related models such as GPT-4.1 and GPT-4o, and 95.40% accuracy for multi-class attribution among five leading LLMs (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3, and DeepSeek-V3). To support open science, we release the CodeT5-Authorship architecture, the LLM-AuthorBench benchmark, and all relevant Google Colab scripts on GitHub: https://github.com/LLMauthorbench/.

So Quale LLM Ha Scritto il Tuo Codice Quest'Estate: Stilometria del Codice Generato da LLM per l'Attribuzione di Autorialità

I Know Which LLM Wrote Your Code Last Summer: LLM generated Code Stylometry for Authorship Attribution

Abstract

Support