Nicht kopieren und einfügen! Umschreibungsstrategien für das Code-Retrieval

Zusammenfassung

Embedding-basiertes Code-Retrieval leidet oft darunter, dass Encoder auf die Oberflächensyntax überangepasst sind. Frühere Arbeiten mildern dies, indem sie LLMs verwenden, um Abfragen und Korpora in einen normalisierten Stil umzuformulieren, lassen jedoch zwei Fragen offen: wie viel repräsentationale Verschiebung hilft, und wann ist der LLM-Aufruf pro Abfrage gerechtfertigt? Wir untersuchen eine Hierarchie von drei Umschreibungsstrategien – stilistische Umformulierung, NL-angereicherter PseudoCode und vollständige Transkription in natürlicher Sprache – unter gemeinsamer Query-Corpus- (QC, online) und reiner Corpus-Erweiterung (C, offline), über sechs CoIR-Benchmarks, fünf Encoder und drei Rewriter, die unabhängige Modellfamilien abdecken (Qwen, DeepSeek, Mistral). Wir sind die Ersten, die NL-angereicherten PseudoCode und Natural Language auf Snippet-Ebene als direkte Retrieval-Repräsentationen evaluieren, und nicht als flüchtige Zwischenprodukte. Vollständige NL-Umschreibung mit QC erzielt die größten Gewinne (+0,51 absolute NDCG@10 auf CT-Contest für MoSE-18), während reine Corpus-Umschreibung das Retrieval in 56 von 90 Konfigurationen verschlechtert, etwa 62 %. Wir führen zwei diagnostische Größen ein, Delta H (Token-Entropie) und Delta s (Embedding-Cosinus), und zeigen, dass Delta H den Retrieval-Gewinn unter QC über alle drei Rewriter-Familien hinweg vorhersagt: gepoolt: Spearman rho = +0,436, p < 0,001 auf DeepSeek+Codestral; rho = +0,593 auf Codestral allein; rho = +0,356 auf Qwen. Dies etabliert Delta H als einen kostengünstigen, Rewriter-unabhängigen Proxy für die Entscheidung, wann sich Umschreibung lohnt, bevor das Retrieval durchgeführt wird. Unsere Analyse betrachtet LLM-basierte Umschreibung als eine Kosten-Nutzen-Entscheidung: Sie ist am effektivsten als Remediation-Layer für leichte Encoder bei code-dominanten Abfragen, mit abnehmenden Gewinnen bei starken Encodern oder NL-lastigen Abfragen.

English

Embedding-based code retrieval often suffers when encoders overfit to surface syntax. Prior work mitigates this by using LLMs to rephrase queries and corpora into a normalized style, but leaves two questions open: how much representational shift helps, and when is the per-query LLM call justified? We study a hierarchy of three rewriting strategies: stylistic rephrasing, NL-enriched PseudoCode, and full Natural-Language transcription, under joint query-corpus (QC, online) and corpus-only (C, offline) augmentation, across six CoIR benchmarks, five encoders, and three rewriters spanning independent model families (Qwen, DeepSeek, Mistral). We are the first to evaluate NL-enriched PseudoCode and snippet-level Natural Language as direct retrieval representations, rather than as transient intermediates. Full NL rewriting with QC yields the largest gains (+0.51 absolute NDCG@10 on CT-Contest for MoSE-18), while corpus-only rewriting degrades retrieval in 56 of 90 configurations, about 62%. We introduce two diagnostics, Delta H, token entropy, and Delta s, embedding cosine, and show that Delta H predicts retrieval gain under QC across all three rewriter families: pooled Spearman rho = +0.436, p < 0.001 on DeepSeek+Codestral; rho = +0.593 on Codestral alone; rho = +0.356 on Qwen. This establishes Delta H as a cheap, rewriter-agnostic proxy for deciding when rewriting pays off before running retrieval. Our analysis reframes LLM rewriting as a cost-benefit decision: it is most effective as a remediation layer for lightweight encoders on code-dominant queries, with diminishing returns for strong encoders or NL-heavy queries.

Nicht kopieren und einfügen! Umschreibungsstrategien für das Code-Retrieval

Do not copy and paste! Rewriting strategies for code retrieval

Zusammenfassung

Support