Efficiënte en schaalbare herkomstregistratie voor door LLM gegenereerde codefragmenten

Samenvatting

Grote taalmodellen (LLMs) voor code-aanvulling en -generatie worden steeds vaker gebruikt in softwareontwikkeling, maar ze kunnen trainingsvoorbeelden letterlijk reproduceren zonder auteurschapstoekenning, wat juridische en ethische bezwaren oproept rond plagiaat en licentienaleving. Klassieke vingerafdrukgebaseerde plagiaatdetectoren zoals Winnowing blijven zeer effectief, maar de inspectie vereist het vergelijken van codefragmenten met de volledige trainingsset, en hun lineaire zoektijd maakt ze onpraktisch voor de miljardenschale corpora die worden gebruikt om moderne code-LLMs te trainen. Om dit gat te overbruggen introduceren wij SOURCETRACKER, een encoder met 300M parameters die is toegespitst op code retrieval, samen met een hybride tweefasige herkomsttraceringspijplijn HYBRIDSOURCETRACKER (HST). HST beperkt eerst een kleine set kandidaatsnippets via vectorzoekopdracht en herrangschikt vervolgens die kandidaten met Winnowing op exacte vingerafdrukken. We trainen en evalueren ons systeem op een subset van 10M snippets uit de THESTACKV2-dataset, met zowel letterlijke als aangepaste snippets die realistische hernoeming van identifiers nabootsen. In een in vitro zoekruimte van 100k snippets met aangepaste queries bereikt onze hybride aanpak een gemiddelde reciproke rang die gelijk is aan die van Winnowing voor fragmenten van 30 tokens. Vanaf vensters van >= 60 tokens presteert het consistent tot 5,4% beter, met behoud van logaritmische querycomplexiteit. In een aanvullende evaluatie met een op LLM gebaseerde beoordelaar vinden we dat veel opgehaalde snippets die niet als grondwaarheid zijn gelabeld, nog steeds sterk lijken op de verwachte bronnen, vooral bij langere contextvensters, en dus nuttig blijven voor eindgebruikers. Over het geheel genomen tonen onze resultaten aan dat integratie van vectorzoekopdracht met vingerafdrukken schaalbare, hoge-precisie herkomsttracering mogelijk maakt voor code die door LLMs wordt gegenereerd.

English

Large language models (LLMs) for code completion and generation are increasingly used in software development, yet they may reproduce training examples verbatim and without authorship attribution, raising legal and ethical concerns around plagiarism and license compliance. Classical fingerprint-based plagiarism detectors based on fingerprinting, such as Winnowing, remain highly effective, yet the inspection requires comparing fragments of code to the entire training set, and their linear-time search makes them impractical for the billion-scale corpora used to train modern code LLMs. To bridge this gap, we introduce SOURCETRACKER, a 300M-parameter encoder tailored for code retrieval, together with a hybrid two-stage provenance-tracking pipeline HYBRIDSOURCETRACKER (HST). HST first narrows down a small set of candidate snippets via vector search, then re-ranks those candidates using Winnowing on exact fingerprints. We train and evaluate our system on a 10M-snippet subset of the THESTACKV2 dataset, with both verbatim and adapted snippets that emulate realistic identifier renaming. On an in vitro 100k-snippet search space with adapted queries, our hybrid approach reaches a mean reciprocal rank on par with Winnowing for 30-token fragments. Then, starting from windows >= 60 tokens, it consistently over-performs by up to 5.4% while preserving logarithmic-time query complexity. In a complementary evaluation using an LLM-based judge, we find that many retrieved snippets not labeled as ground truth are still highly similar to the expected sources, particularly with longer context windows, and thus remain useful for end users. Overall, our results demonstrate that integrating vector search with fingerprinting enables scalable, high-precision provenance tracking for code produced by LLMs.