Эффективное и масштабируемое отслеживание происхождения для фрагментов кода, сгенерированных LLM

Аннотация

Крупные языковые модели (LLM) для дополнения и генерации кода всё шире применяются в разработке программного обеспечения, однако они могут воспроизводить примеры из обучающих данных дословно и без указания авторства, что вызывает юридические и этические опасения в отношении плагиата и соблюдения лицензий. Классические детекторы плагиата на основе отпечатков, такие как Winnowing, остаются высокоэффективными, однако проверка требует сравнения фрагментов кода со всем обучающим набором, а их линейная временная сложность делает их непрактичными для корпусов объёмом в миллиарды примеров, используемых для обучения современных LLM для кода. Чтобы устранить этот разрыв, мы представляем SOURCETRACKER — кодировщик с 300M параметров, специализированный для поиска кода, а также гибридный двухэтапный конвейер отслеживания происхождения HYBRIDSOURCETRACKER (HST). HST сначала сужает множество кандидатов до небольшого набора фрагментов с помощью векторного поиска, а затем переранжирует этих кандидатов, используя Winnowing по точным отпечаткам. Мы обучаем и оцениваем нашу систему на подмножестве из 10M фрагментов набора данных THESTACKV2, используя как дословные, так и адаптированные фрагменты, имитирующие реалистичное переименование идентификаторов. На _in vitro_ пространстве поиска из 100k фрагментов с адаптированными запросами наш гибридный подход достигает среднего взаимного ранга, сопоставимого с Winnowing для фрагментов из 30 токенов. Затем, начиная с окон размером >= 60 токенов, он стабильно превосходит его на величину до 5,4%, сохраняя при этом логарифмическую временную сложность запроса. В дополнительной оценке с использованием судьи на основе LLM мы обнаруживаем, что многие извлечённые фрагменты, не помеченные как эталонные, всё равно оказываются высоко похожими на ожидаемые источники, особенно при использовании более длинных контекстных окон, и поэтому остаются полезными для конечных пользователей. В целом, наши результаты показывают, что интеграция векторного поиска с анализом отпечатков позволяет осуществлять масштабируемое и высокоточное отслеживание происхождения кода, порождённого LLM.

English

Large language models (LLMs) for code completion and generation are increasingly used in software development, yet they may reproduce training examples verbatim and without authorship attribution, raising legal and ethical concerns around plagiarism and license compliance. Classical fingerprint-based plagiarism detectors based on fingerprinting, such as Winnowing, remain highly effective, yet the inspection requires comparing fragments of code to the entire training set, and their linear-time search makes them impractical for the billion-scale corpora used to train modern code LLMs. To bridge this gap, we introduce SOURCETRACKER, a 300M-parameter encoder tailored for code retrieval, together with a hybrid two-stage provenance-tracking pipeline HYBRIDSOURCETRACKER (HST). HST first narrows down a small set of candidate snippets via vector search, then re-ranks those candidates using Winnowing on exact fingerprints. We train and evaluate our system on a 10M-snippet subset of the THESTACKV2 dataset, with both verbatim and adapted snippets that emulate realistic identifier renaming. On an in vitro 100k-snippet search space with adapted queries, our hybrid approach reaches a mean reciprocal rank on par with Winnowing for 30-token fragments. Then, starting from windows >= 60 tokens, it consistently over-performs by up to 5.4% while preserving logarithmic-time query complexity. In a complementary evaluation using an LLM-based judge, we find that many retrieved snippets not labeled as ground truth are still highly similar to the expected sources, particularly with longer context windows, and thus remain useful for end users. Overall, our results demonstrate that integrating vector search with fingerprinting enables scalable, high-precision provenance tracking for code produced by LLMs.