Не копируйте и не вставляйте! Стратегии переписывания для поиска кода.

Аннотация

Поиск кода на основе эмбеддингов часто страдает, когда кодировщики переобучаются на поверхностный синтаксис. Предыдущие работы смягчают эту проблему, используя LLM для переформулирования запросов и корпусов в нормализованный стиль, но оставляют открытыми два вопроса: насколько помогает сдвиг представлений и когда оправдан вызов LLM для каждого запроса? Мы исследуем иерархию из трех стратегий переписывания: стилистическое переформулирование, псевдокод с обогащением на естественном языке (NL-обогащенный псевдокод) и полная транскрипция на естественном языке — в условиях совместного переписывания запроса и корпуса (QC, онлайн) и только корпуса (C, офлайн), на шести бенчмарках CoIR, пяти кодировщиках и трех системах переписывания, охватывающих независимые семейства моделей (Qwen, DeepSeek, Mistral). Мы первыми оцениваем NL-обогащенный псевдокод и естественный язык на уровне фрагментов как непосредственные представления для поиска, а не как временные промежуточные звенья. Полное переписывание на NL с QC дает наибольшие приросты (+0,51 абсолютного NDCG@10 на CT-Contest для MoSE-18), тогда как переписывание только корпуса ухудшает поиск в 56 из 90 конфигураций, т.е. примерно в 62% случаев. Мы вводим две диагностики: Delta H (энтропия токенов) и Delta s (косинус эмбеддингов), и показываем, что Delta H предсказывает прирост качества поиска при QC во всех трех семействах переписчиков: объединенный коэффициент Спирмена ρ = +0,436, p < 0,001 для DeepSeek+Codestral; ρ = +0,593 для одного Codestral; ρ = +0,356 для Qwen. Это устанавливает Delta H в качестве дешевого, не зависящего от переписчика прокси для принятия решения о том, когда переписывание окупается, до выполнения поиска. Наш анализ переосмысливает переписывание с помощью LLM как решение о соотношении затрат и выгоды: оно наиболее эффективно в качестве слоя коррекции для легковесных кодировщиков на запросах с преобладанием кода, причем отдача снижается для сильных кодировщиков или запросов с большим количеством естественного языка.

English

Embedding-based code retrieval often suffers when encoders overfit to surface syntax. Prior work mitigates this by using LLMs to rephrase queries and corpora into a normalized style, but leaves two questions open: how much representational shift helps, and when is the per-query LLM call justified? We study a hierarchy of three rewriting strategies: stylistic rephrasing, NL-enriched PseudoCode, and full Natural-Language transcription, under joint query-corpus (QC, online) and corpus-only (C, offline) augmentation, across six CoIR benchmarks, five encoders, and three rewriters spanning independent model families (Qwen, DeepSeek, Mistral). We are the first to evaluate NL-enriched PseudoCode and snippet-level Natural Language as direct retrieval representations, rather than as transient intermediates. Full NL rewriting with QC yields the largest gains (+0.51 absolute NDCG@10 on CT-Contest for MoSE-18), while corpus-only rewriting degrades retrieval in 56 of 90 configurations, about 62%. We introduce two diagnostics, Delta H, token entropy, and Delta s, embedding cosine, and show that Delta H predicts retrieval gain under QC across all three rewriter families: pooled Spearman rho = +0.436, p < 0.001 on DeepSeek+Codestral; rho = +0.593 on Codestral alone; rho = +0.356 on Qwen. This establishes Delta H as a cheap, rewriter-agnostic proxy for deciding when rewriting pays off before running retrieval. Our analysis reframes LLM rewriting as a cost-benefit decision: it is most effective as a remediation layer for lightweight encoders on code-dominant queries, with diminishing returns for strong encoders or NL-heavy queries.

Не копируйте и не вставляйте! Стратегии переписывания для поиска кода.

Do not copy and paste! Rewriting strategies for code retrieval

Аннотация

Support