ChatPaper.aiChatPaper

Не копируйте и не вставляйте! Стратегии переписывания для поиска кода.

Do not copy and paste! Rewriting strategies for code retrieval

May 8, 2026
Авторы: Andrea Gurioli, Federico Pennino, Maurizio Gabbrielli
cs.AI

Аннотация

Поиск кода на основе эмбеддингов часто страдает, когда кодировщики переобучаются на поверхностный синтаксис. Предыдущие работы смягчают эту проблему, используя LLM для переформулирования запросов и корпусов в нормализованный стиль, но оставляют открытыми два вопроса: насколько помогает сдвиг представлений и когда оправдан вызов LLM для каждого запроса? Мы исследуем иерархию из трех стратегий переписывания: стилистическое переформулирование, псевдокод с обогащением на естественном языке (NL-обогащенный псевдокод) и полная транскрипция на естественном языке — в условиях совместного переписывания запроса и корпуса (QC, онлайн) и только корпуса (C, офлайн), на шести бенчмарках CoIR, пяти кодировщиках и трех системах переписывания, охватывающих независимые семейства моделей (Qwen, DeepSeek, Mistral). Мы первыми оцениваем NL-обогащенный псевдокод и естественный язык на уровне фрагментов как непосредственные представления для поиска, а не как временные промежуточные звенья. Полное переписывание на NL с QC дает наибольшие приросты (+0,51 абсолютного NDCG@10 на CT-Contest для MoSE-18), тогда как переписывание только корпуса ухудшает поиск в 56 из 90 конфигураций, т.е. примерно в 62% случаев. Мы вводим две диагностики: Delta H (энтропия токенов) и Delta s (косинус эмбеддингов), и показываем, что Delta H предсказывает прирост качества поиска при QC во всех трех семействах переписчиков: объединенный коэффициент Спирмена ρ = +0,436, p < 0,001 для DeepSeek+Codestral; ρ = +0,593 для одного Codestral; ρ = +0,356 для Qwen. Это устанавливает Delta H в качестве дешевого, не зависящего от переписчика прокси для принятия решения о том, когда переписывание окупается, до выполнения поиска. Наш анализ переосмысливает переписывание с помощью LLM как решение о соотношении затрат и выгоды: оно наиболее эффективно в качестве слоя коррекции для легковесных кодировщиков на запросах с преобладанием кода, причем отдача снижается для сильных кодировщиков или запросов с большим количеством естественного языка.
English
Embedding-based code retrieval often suffers when encoders overfit to surface syntax. Prior work mitigates this by using LLMs to rephrase queries and corpora into a normalized style, but leaves two questions open: how much representational shift helps, and when is the per-query LLM call justified? We study a hierarchy of three rewriting strategies: stylistic rephrasing, NL-enriched PseudoCode, and full Natural-Language transcription, under joint query-corpus (QC, online) and corpus-only (C, offline) augmentation, across six CoIR benchmarks, five encoders, and three rewriters spanning independent model families (Qwen, DeepSeek, Mistral). We are the first to evaluate NL-enriched PseudoCode and snippet-level Natural Language as direct retrieval representations, rather than as transient intermediates. Full NL rewriting with QC yields the largest gains (+0.51 absolute NDCG@10 on CT-Contest for MoSE-18), while corpus-only rewriting degrades retrieval in 56 of 90 configurations, about 62%. We introduce two diagnostics, Delta H, token entropy, and Delta s, embedding cosine, and show that Delta H predicts retrieval gain under QC across all three rewriter families: pooled Spearman rho = +0.436, p < 0.001 on DeepSeek+Codestral; rho = +0.593 on Codestral alone; rho = +0.356 on Qwen. This establishes Delta H as a cheap, rewriter-agnostic proxy for deciding when rewriting pays off before running retrieval. Our analysis reframes LLM rewriting as a cost-benefit decision: it is most effective as a remediation layer for lightweight encoders on code-dominant queries, with diminishing returns for strong encoders or NL-heavy queries.
PDF81May 14, 2026