L'ADN caché du JavaScript généré par les LLM : les motifs structurels permettent une attribution d'auteur à haute précision

papers.abstract

Dans cet article, nous présentons la première étude à grande échelle explorant si le code JavaScript généré par les modèles de langage de grande taille (LLMs) peut révéler quel modèle l'a produit, permettant ainsi une attribution d'auteur fiable et une identification des modèles. Avec l'essor rapide du code généré par l'IA, l'attribution joue un rôle crucial dans la détection des vulnérabilités, le signalement de contenus malveillants et la garantie de responsabilité. Alors que la détection IA-vs-humain traite généralement l'IA comme une catégorie unique, nous montrons que les LLMs individuels laissent des signatures stylistiques uniques, même parmi les modèles appartenant à la même famille ou de taille de paramètres similaire. À cette fin, nous introduisons LLM-NodeJS, un ensemble de données de 50 000 programmes back-end Node.js provenant de 20 grands modèles de langage. Chaque programme a quatre variantes transformées, produisant 250 000 échantillons JavaScript uniques et deux représentations supplémentaires (JSIR et AST) pour diverses applications de recherche. En utilisant cet ensemble de données, nous comparons les classificateurs traditionnels d'apprentissage automatique aux encodeurs Transformer fine-tunés et introduisons CodeT5-JSA, une architecture personnalisée dérivée du modèle CodeT5 à 770 millions de paramètres, dont le décodeur a été supprimé et la tête de classification modifiée. Il atteint une précision de 95,8 % pour l'attribution à cinq classes, 94,6 % pour dix classes et 88,5 % pour vingt classes, surpassant les autres modèles testés tels que BERT, CodeBERT et Longformer. Nous démontrons que les classificateurs capturent des régularités stylistiques plus profondes dans le flux de données et la structure des programmes, plutôt que de se fier à des caractéristiques de surface. Par conséquent, l'attribution reste efficace même après l'obfuscation, la suppression des commentaires et les transformations lourdes du code. Pour soutenir la science ouverte et la reproductibilité, nous publions l'ensemble de données LLM-NodeJS, les scripts d'entraînement Google Colab et tous les matériels connexes sur GitHub : https://github.com/LLM-NodeJS-dataset.

English

In this paper, we present the first large-scale study exploring whether JavaScript code generated by Large Language Models (LLMs) can reveal which model produced it, enabling reliable authorship attribution and model fingerprinting. With the rapid rise of AI-generated code, attribution is playing a critical role in detecting vulnerabilities, flagging malicious content, and ensuring accountability. While AI-vs-human detection usually treats AI as a single category we show that individual LLMs leave unique stylistic signatures, even among models belonging to the same family or parameter size. To this end, we introduce LLM-NodeJS, a dataset of 50,000 Node.js back-end programs from 20 large language models. Each has four transformed variants, yielding 250,000 unique JavaScript samples and two additional representations (JSIR and AST) for diverse research applications. Using this dataset, we benchmark traditional machine learning classifiers against fine-tuned Transformer encoders and introduce CodeT5-JSA, a custom architecture derived from the 770M-parameter CodeT5 model with its decoder removed and a modified classification head. It achieves 95.8% accuracy on five-class attribution, 94.6% on ten-class, and 88.5% on twenty-class tasks, surpassing other tested models such as BERT, CodeBERT, and Longformer. We demonstrate that classifiers capture deeper stylistic regularities in program dataflow and structure, rather than relying on surface-level features. As a result, attribution remains effective even after mangling, comment removal, and heavy code transformations. To support open science and reproducibility, we release the LLM-NodeJS dataset, Google Colab training scripts, and all related materials on GitHub: https://github.com/LLM-NodeJS-dataset.

L'ADN caché du JavaScript généré par les LLM : les motifs structurels permettent une attribution d'auteur à haute précision

The Hidden DNA of LLM-Generated JavaScript: Structural Patterns Enable High-Accuracy Authorship Attribution

papers.abstract

Support