¡No copiar y pegar! Estrategias de reescritura para la recuperación de código.
Do not copy and paste! Rewriting strategies for code retrieval
May 8, 2026
Autores: Andrea Gurioli, Federico Pennino, Maurizio Gabbrielli
cs.AI
Resumen
La recuperación de código basada en incrustaciones suele verse afectada cuando los codificadores sobreajustan la sintaxis superficial. Trabajos previos mitigan esto mediante el uso de LLMs para reformular consultas y corpus en un estilo normalizado, pero dejan dos preguntas abiertas: cuánto ayuda el cambio representacional y cuándo está justificada la llamada por consulta al LLM. Estudiamos una jerarquía de tres estrategias de reescritura: reformulación estilística, Pseudocódigo enriquecido con NL y transcripción completa a Lenguaje Natural, bajo aumentación conjunta consulta-corpus (QC, en línea) y solo del corpus (C, fuera de línea), en seis puntos de referencia CoIR, cinco codificadores y tres reescritores que abarcan familias de modelos independientes (Qwen, DeepSeek, Mistral). Somos los primeros en evaluar el Pseudocódigo enriquecido con NL y el Lenguaje Natural a nivel de fragmento como representaciones de recuperación directa, en lugar de como intermedios transitorios. La reescritura completa a NL con QC produce las mayores ganancias (+0,51 absoluto en NDCG@10 en CT-Contest para MoSE-18), mientras que la reescritura solo del corpus degrada la recuperación en 56 de 90 configuraciones, aproximadamente un 62%. Introducimos dos diagnósticos, Delta H (entropía de tokens) y Delta s (coseno de incrustaciones), y mostramos que Delta H predice la ganancia de recuperación bajo QC en las tres familias de reescritores: rho de Spearman agrupado = +0,436, p < 0,001 en DeepSeek+Codestral; rho = +0,593 solo en Codestral; rho = +0,356 en Qwen. Esto establece Delta H como un proxy económico e independiente del reescritor para decidir cuándo la reescritura es rentable antes de ejecutar la recuperación. Nuestro análisis replantea la reescritura con LLM como una decisión de costo-beneficio: es más efectiva como capa de remediación para codificadores ligeros en consultas dominadas por código, con rendimientos decrecientes para codificadores potentes o consultas con mucho lenguaje natural.
English
Embedding-based code retrieval often suffers when encoders overfit to surface syntax. Prior work mitigates this by using LLMs to rephrase queries and corpora into a normalized style, but leaves two questions open: how much representational shift helps, and when is the per-query LLM call justified? We study a hierarchy of three rewriting strategies: stylistic rephrasing, NL-enriched PseudoCode, and full Natural-Language transcription, under joint query-corpus (QC, online) and corpus-only (C, offline) augmentation, across six CoIR benchmarks, five encoders, and three rewriters spanning independent model families (Qwen, DeepSeek, Mistral). We are the first to evaluate NL-enriched PseudoCode and snippet-level Natural Language as direct retrieval representations, rather than as transient intermediates. Full NL rewriting with QC yields the largest gains (+0.51 absolute NDCG@10 on CT-Contest for MoSE-18), while corpus-only rewriting degrades retrieval in 56 of 90 configurations, about 62%. We introduce two diagnostics, Delta H, token entropy, and Delta s, embedding cosine, and show that Delta H predicts retrieval gain under QC across all three rewriter families: pooled Spearman rho = +0.436, p < 0.001 on DeepSeek+Codestral; rho = +0.593 on Codestral alone; rho = +0.356 on Qwen. This establishes Delta H as a cheap, rewriter-agnostic proxy for deciding when rewriting pays off before running retrieval. Our analysis reframes LLM rewriting as a cost-benefit decision: it is most effective as a remediation layer for lightweight encoders on code-dominant queries, with diminishing returns for strong encoders or NL-heavy queries.