Ne copiez pas et ne collez pas ! Stratégies de réécriture pour la récupération de code.

Résumé

La recherche de code basée sur les embeddings souffre souvent d'un surajustement à la syntaxe de surface. Des travaux antérieurs atténuent ce problème en utilisant des LLM pour reformuler les requêtes et les corpus dans un style normalisé, mais laissent deux questions ouvertes : dans quelle mesure le décalage représentationnel est-il bénéfique, et quand l'appel au LLM par requête est-il justifié ? Nous étudions une hiérarchie de trois stratégies de réécriture : la reformulation stylistique, le pseudo-code enrichi en langage naturel, et la transcription complète en langage naturel, sous des augmentations conjointes requête-corpus (QC, en ligne) et uniquement sur le corpus (C, hors ligne), sur six référentiels CoIR, cinq encodeurs et trois réécriveurs issus de familles de modèles indépendantes (Qwen, DeepSeek, Mistral). Nous sommes les premiers à évaluer le pseudo-code enrichi en langage naturel et le langage naturel au niveau des extraits comme représentations directes pour la recherche, et non comme intermédiaires transitoires. La réécriture complète en langage naturel avec QC produit les plus grands gains (+0,51 en NDCG@10 absolu sur CT-Contest pour MoSE-18), tandis que la réécriture uniquement sur le corpus dégrade la recherche dans 56 des 90 configurations, soit environ 62 %. Nous introduisons deux diagnostics, Delta H (entropie des tokens) et Delta s (cosinus d'embedding), et montrons que Delta H prédit le gain de recherche sous QC pour l'ensemble des trois familles de réécriveurs : rho de Spearman poolé = +0,436, p < 0,001 sur DeepSeek+Codestral ; rho = +0,593 sur Codestral seul ; rho = +0,356 sur Qwen. Cela établit Delta H comme un proxy peu coûteux et indépendant du réécriveur pour décider si la réécriture est rentable avant d'exécuter la recherche. Notre analyse reformule la réécriture par LLM comme une décision coût-bénéfice : elle est plus efficace en tant que couche de remédiation pour les encodeurs légers sur des requêtes à dominante de code, avec des rendements décroissants pour les encodeurs puissants ou les requêtes riches en langage naturel.

English

Embedding-based code retrieval often suffers when encoders overfit to surface syntax. Prior work mitigates this by using LLMs to rephrase queries and corpora into a normalized style, but leaves two questions open: how much representational shift helps, and when is the per-query LLM call justified? We study a hierarchy of three rewriting strategies: stylistic rephrasing, NL-enriched PseudoCode, and full Natural-Language transcription, under joint query-corpus (QC, online) and corpus-only (C, offline) augmentation, across six CoIR benchmarks, five encoders, and three rewriters spanning independent model families (Qwen, DeepSeek, Mistral). We are the first to evaluate NL-enriched PseudoCode and snippet-level Natural Language as direct retrieval representations, rather than as transient intermediates. Full NL rewriting with QC yields the largest gains (+0.51 absolute NDCG@10 on CT-Contest for MoSE-18), while corpus-only rewriting degrades retrieval in 56 of 90 configurations, about 62%. We introduce two diagnostics, Delta H, token entropy, and Delta s, embedding cosine, and show that Delta H predicts retrieval gain under QC across all three rewriter families: pooled Spearman rho = +0.436, p < 0.001 on DeepSeek+Codestral; rho = +0.593 on Codestral alone; rho = +0.356 on Qwen. This establishes Delta H as a cheap, rewriter-agnostic proxy for deciding when rewriting pays off before running retrieval. Our analysis reframes LLM rewriting as a cost-benefit decision: it is most effective as a remediation layer for lightweight encoders on code-dominant queries, with diminishing returns for strong encoders or NL-heavy queries.

Ne copiez pas et ne collez pas ! Stratégies de réécriture pour la récupération de code.

Do not copy and paste! Rewriting strategies for code retrieval

Résumé

Support