Traçabilité de provenance efficace et scalable pour des extraits de code générés par LLM

Résumé

Les grands modèles de langage (LLMs) destinés à la complétion et à la génération de code sont de plus en plus utilisés dans le développement logiciel, mais ils peuvent reproduire textuellement des exemples d’entraînement sans attribution de paternité, soulevant des préoccupations juridiques et éthiques liées au plagiat et à la conformité des licences. Les détecteurs de plagiat classiques basés sur les empreintes, comme Winnowing, restent très efficaces, mais leur inspection nécessite de comparer des fragments de code à l’ensemble du jeu d’entraînement, et leur recherche en temps linéaire les rend impraticables pour les corpus à l’échelle du milliard utilisés pour entraîner les LLMs de code modernes. Pour combler cette lacune, nous présentons SOURCETRACKER, un encodeur de 300 millions de paramètres conçu pour la récupération de code, ainsi qu’un pipeline hybride de traçage de provenance en deux étapes, HYBRIDSOURCETRACKER (HST). HST réduit d’abord un petit ensemble de fragments candidats via une recherche vectorielle, puis re-classe ces candidats en utilisant Winnowing sur des empreintes exactes. Nous entraînons et évaluons notre système sur un sous-ensemble de 10 millions de fragments du jeu de données THESTACKV2, avec à la fois des fragments textuels et adaptés qui simulent un renommage réaliste des identifiants. Sur un espace de recherche in vitro de 100 000 fragments avec des requêtes adaptées, notre approche hybride atteint un rang réciproque moyen comparable à celui de Winnowing pour des fragments de 30 tokens. Ensuite, à partir de fenêtres d’au moins 60 tokens, elle surpasse systématiquement ce dernier jusqu’à 5,4 %, tout en conservant une complexité de requête en temps logarithmique. Dans une évaluation complémentaire utilisant un juge basé sur un LLM, nous constatons que de nombreux fragments récupérés non étiquetés comme vérité terrain sont néanmoins très similaires aux sources attendues, en particulier avec des fenêtres de contexte plus longues, et restent donc utiles pour les utilisateurs finaux. Dans l’ensemble, nos résultats démontrent que l’intégration de la recherche vectorielle avec l’empreinte numérique permet un traçage de provenance scalable et de haute précision pour le code produit par les LLMs.

English

Large language models (LLMs) for code completion and generation are increasingly used in software development, yet they may reproduce training examples verbatim and without authorship attribution, raising legal and ethical concerns around plagiarism and license compliance. Classical fingerprint-based plagiarism detectors based on fingerprinting, such as Winnowing, remain highly effective, yet the inspection requires comparing fragments of code to the entire training set, and their linear-time search makes them impractical for the billion-scale corpora used to train modern code LLMs. To bridge this gap, we introduce SOURCETRACKER, a 300M-parameter encoder tailored for code retrieval, together with a hybrid two-stage provenance-tracking pipeline HYBRIDSOURCETRACKER (HST). HST first narrows down a small set of candidate snippets via vector search, then re-ranks those candidates using Winnowing on exact fingerprints. We train and evaluate our system on a 10M-snippet subset of the THESTACKV2 dataset, with both verbatim and adapted snippets that emulate realistic identifier renaming. On an in vitro 100k-snippet search space with adapted queries, our hybrid approach reaches a mean reciprocal rank on par with Winnowing for 30-token fragments. Then, starting from windows >= 60 tokens, it consistently over-performs by up to 5.4% while preserving logarithmic-time query complexity. In a complementary evaluation using an LLM-based judge, we find that many retrieved snippets not labeled as ground truth are still highly similar to the expected sources, particularly with longer context windows, and thus remain useful for end users. Overall, our results demonstrate that integrating vector search with fingerprinting enables scalable, high-precision provenance tracking for code produced by LLMs.