Effiziente und skalierbare Provenienzverfolgung für LLM-generierte Code-Snippets

Zusammenfassung

Große Sprachmodelle (LLMs) zur Codevervollständigung und -generierung werden zunehmend in der Softwareentwicklung eingesetzt, können jedoch Trainingsbeispiele wörtlich und ohne Autorenangabe reproduzieren, was rechtliche und ethische Bedenken hinsichtlich Plagiat und Lizenzkonformität aufwirft. Klassische fingerabdruckbasierte Plagiatsdetektoren wie Winnowing sind nach wie vor hochwirksam, erfordern jedoch den Vergleich von Codefragmenten mit dem gesamten Trainingssatz, und ihre lineare Suchzeit macht sie für die milliardengroßen Korpora, die zum Training moderner Code-LLMs verwendet werden, unpraktikabel. Um diese Lücke zu schließen, stellen wir SOURCETRACKER vor, einen auf Codeabfrage zugeschnittenen Encoder mit 300 Millionen Parametern, zusammen mit einer hybriden zweistufigen Provenienzverfolgungspipeline HYBRIDSOURCETRACKER (HST). HST grenzt zunächst eine kleine Menge von Kandidatenfragmenten mittels Vektorsuche ein und bewertet diese Kandidaten dann mithilfe von Winnowing auf exakte Fingerabdrücke neu. Wir trainieren und evaluieren unser System auf einer 10-Millionen-Fragment-Teilmenge des THESTACKV2-Datensatzes, sowohl mit wörtlichen als auch mit angepassten Fragmenten, die realistische Identifikatorumbenennungen nachahmen. In einem In-vitro-Suchraum mit 100.000 Fragmenten und angepassten Abfragen erreicht unser hybrider Ansatz einen mittleren reziproken Rang, der für 30-Token-Fragmente mit Winnowing vergleichbar ist. Ab Fenstern von >= 60 Token übertrifft es Winnowing durchweg um bis zu 5,4 %, während es eine logarithmische Abfragekomplexität beibehält. In einer ergänzenden Bewertung mit einem LLM-basierten Bewerter stellen wir fest, dass viele abgerufene Fragmente, die nicht als Ground Truth markiert sind, dennoch den erwarteten Quellen sehr ähnlich sind, insbesondere bei längeren Kontextfenstern, und daher für Endnutzer nützlich bleiben. Insgesamt zeigen unsere Ergebnisse, dass die Integration von Vektorsuche mit Fingerprinting eine skalierbare, hochpräzise Provenienzverfolgung für von LLMs erzeugten Code ermöglicht.

English

Large language models (LLMs) for code completion and generation are increasingly used in software development, yet they may reproduce training examples verbatim and without authorship attribution, raising legal and ethical concerns around plagiarism and license compliance. Classical fingerprint-based plagiarism detectors based on fingerprinting, such as Winnowing, remain highly effective, yet the inspection requires comparing fragments of code to the entire training set, and their linear-time search makes them impractical for the billion-scale corpora used to train modern code LLMs. To bridge this gap, we introduce SOURCETRACKER, a 300M-parameter encoder tailored for code retrieval, together with a hybrid two-stage provenance-tracking pipeline HYBRIDSOURCETRACKER (HST). HST first narrows down a small set of candidate snippets via vector search, then re-ranks those candidates using Winnowing on exact fingerprints. We train and evaluate our system on a 10M-snippet subset of the THESTACKV2 dataset, with both verbatim and adapted snippets that emulate realistic identifier renaming. On an in vitro 100k-snippet search space with adapted queries, our hybrid approach reaches a mean reciprocal rank on par with Winnowing for 30-token fragments. Then, starting from windows >= 60 tokens, it consistently over-performs by up to 5.4% while preserving logarithmic-time query complexity. In a complementary evaluation using an LLM-based judge, we find that many retrieved snippets not labeled as ground truth are still highly similar to the expected sources, particularly with longer context windows, and thus remain useful for end users. Overall, our results demonstrate that integrating vector search with fingerprinting enables scalable, high-precision provenance tracking for code produced by LLMs.