Rastreamento eficiente e escalável de proveniência para trechos de código gerados por LLM

Resumo

Modelos de linguagem de grande escala (LLMs) para conclusão e geração de código estão cada vez mais sendo usados no desenvolvimento de software, porém podem reproduzir exemplos de treinamento na íntegra e sem atribuição de autoria, levantando preocupações legais e éticas relacionadas a plágio e conformidade de licenças. Detectores de plágio clássicos baseados em impressões digitais, como o Winnowing, continuam altamente eficazes, mas a inspeção exige comparar fragmentos de código com todo o conjunto de treinamento, e sua busca em tempo linear torna-os impraticáveis para corpora de bilhões de escalas usados para treinar LLMs de código modernos. Para preencher essa lacuna, introduzimos o SOURCETRACKER, um codificador de 300M de parâmetros adaptado para recuperação de código, juntamente com um pipeline híbrido de rastreamento de proveniência em dois estágios, o HYBRIDSOURCETRACKER (HST). O HST primeiro reduz um pequeno conjunto de fragmentos candidatos via busca vetorial e, em seguida, reordena esses candidatos usando Winnowing em impressões digitais exatas. Treinamos e avaliamos nosso sistema em um subconjunto de 10M fragmentos do conjunto de dados THESTACKV2, com fragmentos tanto literais quanto adaptados que simulam renomeações de identificadores realistas. Em um espaço de busca in vitro de 100k fragmentos com consultas adaptadas, nossa abordagem híbrida atinge uma média de classificação recíproca (mean reciprocal rank) equiparável ao Winnowing para fragmentos de 30 tokens. Em seguida, a partir de janelas >= 60 tokens, ela consistentemente supera o Winnowing em até 5,4%, preservando a complexidade de consulta em tempo logarítmico. Em uma avaliação complementar usando um juiz baseado em LLM, descobrimos que muitos fragmentos recuperados não rotulados como verdade de base ainda são altamente semelhantes às fontes esperadas, particularmente com janelas de contexto mais longas, e, portanto, permanecem úteis para os usuários finais. No geral, nossos resultados demonstram que a integração da busca vetorial com impressões digitais possibilita um rastreamento de proveniência escalável e de alta precisão para código produzido por LLMs.

English

Large language models (LLMs) for code completion and generation are increasingly used in software development, yet they may reproduce training examples verbatim and without authorship attribution, raising legal and ethical concerns around plagiarism and license compliance. Classical fingerprint-based plagiarism detectors based on fingerprinting, such as Winnowing, remain highly effective, yet the inspection requires comparing fragments of code to the entire training set, and their linear-time search makes them impractical for the billion-scale corpora used to train modern code LLMs. To bridge this gap, we introduce SOURCETRACKER, a 300M-parameter encoder tailored for code retrieval, together with a hybrid two-stage provenance-tracking pipeline HYBRIDSOURCETRACKER (HST). HST first narrows down a small set of candidate snippets via vector search, then re-ranks those candidates using Winnowing on exact fingerprints. We train and evaluate our system on a 10M-snippet subset of the THESTACKV2 dataset, with both verbatim and adapted snippets that emulate realistic identifier renaming. On an in vitro 100k-snippet search space with adapted queries, our hybrid approach reaches a mean reciprocal rank on par with Winnowing for 30-token fragments. Then, starting from windows >= 60 tokens, it consistently over-performs by up to 5.4% while preserving logarithmic-time query complexity. In a complementary evaluation using an LLM-based judge, we find that many retrieved snippets not labeled as ground truth are still highly similar to the expected sources, particularly with longer context windows, and thus remain useful for end users. Overall, our results demonstrate that integrating vector search with fingerprinting enables scalable, high-precision provenance tracking for code produced by LLMs.