Seguimiento de procedencia eficiente y escalable para fragmentos de código generados por LLM

Resumen

Los modelos de lenguaje grandes (LLM) para la finalización y generación de código se utilizan cada vez más en el desarrollo de software, aunque pueden reproducir ejemplos de entrenamiento textualmente y sin atribución de autoría, lo que plantea preocupaciones legales y éticas en torno al plagio y el cumplimiento de licencias. Los detectores de plagio clásicos basados en huellas dactilares, como Winnowing, siguen siendo muy efectivos; sin embargo, la inspección requiere comparar fragmentos de código con todo el conjunto de entrenamiento, y su búsqueda en tiempo lineal los hace impracticables para los corpus a escala de miles de millones utilizados para entrenar LLM de código modernos. Para cerrar esta brecha, presentamos SOURCETRACKER, un codificador de 300 millones de parámetros diseñado para la recuperación de código, junto con un pipeline híbrido de seguimiento de procedencia en dos etapas, HYBRIDSOURCETRACKER (HST). HST primero reduce un conjunto pequeño de fragmentos candidatos mediante búsqueda vectorial y luego reordena esos candidatos utilizando Winnowing sobre huellas exactas. Entrenamos y evaluamos nuestro sistema en un subconjunto de 10 millones de fragmentos del conjunto de datos THESTACKV2, con fragmentos tanto textuales como adaptados que emulan un cambio de nombre realista de identificadores. En un espacio de búsqueda in vitro de 100 mil fragmentos con consultas adaptadas, nuestro enfoque híbrido alcanza un rango recíproco medio similar al de Winnowing para fragmentos de 30 tokens. Luego, a partir de ventanas de 60 tokens o más, supera consistentemente hasta en un 5.4 %, preservando la complejidad logarítmica de las consultas. En una evaluación complementaria utilizando un juez basado en LLM, encontramos que muchos fragmentos recuperados no etiquetados como referencia verdadera siguen siendo muy similares a las fuentes esperadas, particularmente con ventanas de contexto más largas, y por lo tanto siguen siendo útiles para los usuarios finales. En general, nuestros resultados demuestran que integrar la búsqueda vectorial con la toma de huellas dactilares permite un seguimiento de procedencia escalable y de alta precisión para el código producido por LLM.

English

Large language models (LLMs) for code completion and generation are increasingly used in software development, yet they may reproduce training examples verbatim and without authorship attribution, raising legal and ethical concerns around plagiarism and license compliance. Classical fingerprint-based plagiarism detectors based on fingerprinting, such as Winnowing, remain highly effective, yet the inspection requires comparing fragments of code to the entire training set, and their linear-time search makes them impractical for the billion-scale corpora used to train modern code LLMs. To bridge this gap, we introduce SOURCETRACKER, a 300M-parameter encoder tailored for code retrieval, together with a hybrid two-stage provenance-tracking pipeline HYBRIDSOURCETRACKER (HST). HST first narrows down a small set of candidate snippets via vector search, then re-ranks those candidates using Winnowing on exact fingerprints. We train and evaluate our system on a 10M-snippet subset of the THESTACKV2 dataset, with both verbatim and adapted snippets that emulate realistic identifier renaming. On an in vitro 100k-snippet search space with adapted queries, our hybrid approach reaches a mean reciprocal rank on par with Winnowing for 30-token fragments. Then, starting from windows >= 60 tokens, it consistently over-performs by up to 5.4% while preserving logarithmic-time query complexity. In a complementary evaluation using an LLM-based judge, we find that many retrieved snippets not labeled as ground truth are still highly similar to the expected sources, particularly with longer context windows, and thus remain useful for end users. Overall, our results demonstrate that integrating vector search with fingerprinting enables scalable, high-precision provenance tracking for code produced by LLMs.