コピー&ペースト禁止!コード検索のための書き換え戦略
Do not copy and paste! Rewriting strategies for code retrieval
May 8, 2026
著者: Andrea Gurioli, Federico Pennino, Maurizio Gabbrielli
cs.AI
要旨
埋め込みベースのコード検索は、エンコーダが表層的な構文に過適合することが多いという問題を抱えている。これまでの研究では、LLMを用いてクエリとコーパスを正規化されたスタイルに言い換えることでこの問題を緩和してきたが、表現のシフトがどの程度有効なのか、またクエリごとにLLMを呼び出すことがいつ正当化されるのかという2つの疑問が残されている。本研究では、3つの書き換え戦略の階層、すなわちスタイルの言い換え、自然言語強化疑似コード、完全な自然言語転記を、クエリ・コーパス同時拡張(QC、オンライン)とコーパスのみの拡張(C、オフライン)の下で、6つのCoIRベンチマーク、5つのエンコーダ、および独立したモデルファミリー(Qwen、DeepSeek、Mistral)にわたる3つの書き換え器を用いて調査する。我々は、自然言語強化疑似コードとスニペットレベルの自然言語を、一時的な中間表現としてではなく、直接的な検索表現として評価した最初の研究である。完全な自然言語書き換えとQCを組み合わせると最大の改善が見られ(CT-ContestにおけるMoSE-18で絶対NDCG@10が+0.51)、一方でコーパスのみの書き換えは90設定中56(約62%)で検索性能を低下させる。我々は2つの診断指標、Delta H(トークンエントロピー)とDelta s(埋め込みコサイン)を導入し、Delta Hが3つの書き換え器ファミリーすべてにおいてQC下での検索利得を予測することを示す:プールされたスピアマンのρはDeepSeek+Codestralで+0.436(p < 0.001)、Codestral単体でρ = +0.593、Qwenでρ = +0.356である。これによりDelta Hは、検索を実行する前に書き換えの効果を判断するための、書き換え器に依存しない安価な代理指標として確立される。我々の分析は、LLMによる書き換えを費用便益判断として捉え直すものである。すなわち、軽量エンコーダがコード主体のクエリを扱う場合の修復層として最も効果的であり、強力なエンコーダや自然言語主体のクエリに対しては効果が減少する。
English
Embedding-based code retrieval often suffers when encoders overfit to surface syntax. Prior work mitigates this by using LLMs to rephrase queries and corpora into a normalized style, but leaves two questions open: how much representational shift helps, and when is the per-query LLM call justified? We study a hierarchy of three rewriting strategies: stylistic rephrasing, NL-enriched PseudoCode, and full Natural-Language transcription, under joint query-corpus (QC, online) and corpus-only (C, offline) augmentation, across six CoIR benchmarks, five encoders, and three rewriters spanning independent model families (Qwen, DeepSeek, Mistral). We are the first to evaluate NL-enriched PseudoCode and snippet-level Natural Language as direct retrieval representations, rather than as transient intermediates. Full NL rewriting with QC yields the largest gains (+0.51 absolute NDCG@10 on CT-Contest for MoSE-18), while corpus-only rewriting degrades retrieval in 56 of 90 configurations, about 62%. We introduce two diagnostics, Delta H, token entropy, and Delta s, embedding cosine, and show that Delta H predicts retrieval gain under QC across all three rewriter families: pooled Spearman rho = +0.436, p < 0.001 on DeepSeek+Codestral; rho = +0.593 on Codestral alone; rho = +0.356 on Qwen. This establishes Delta H as a cheap, rewriter-agnostic proxy for deciding when rewriting pays off before running retrieval. Our analysis reframes LLM rewriting as a cost-benefit decision: it is most effective as a remediation layer for lightweight encoders on code-dominant queries, with diminishing returns for strong encoders or NL-heavy queries.