Más allá de la Recuperación: Un Punto de Referencia y Modelo Multitarea para la Búsqueda de Código

Resumen

La búsqueda de código generalmente se ha evaluado como recuperación en primera etapa, aunque los sistemas de producción dependen de canalizaciones más amplias con reranking y consultas de estilo desarrollador. Los benchmarks existentes también sufren de contaminación de datos, ruido en las etiquetas y relevancia binaria degenerada. En este artículo, presentamos CoREB, un benchmark de recuperación y reranking de código multitarea con limitación de contaminación, que va más allá de la recuperación para abarcar toda la canalización de búsqueda de código. CoREB se construye a partir de problemas de LiveCodeBench reescritos de manera contrafáctica en cinco lenguajes de programación y se entrega como versiones temporizadas con juicios de relevancia graduados. Evaluamos once modelos de embeddings y cinco rerankers en tres tareas: texto-a-código, código-a-texto y código-a-código. Nuestros experimentos revelan que: \circone los embeddings especializados en código dominan la recuperación código-a-código ({sim}2{times} sobre codificadores generales), pero ningún modelo gana en las tres tareas; \circtwo las consultas cortas con palabras clave, el formato más cercano a la búsqueda real de desarrolladores, colapsan cada modelo a un nDCG@10 cercano a cero; \circthree los rerankers estándar son asimétricos en las tareas, con una variación de 12 puntos en código-a-código y ningún baseline netamente positivo en todas las tareas; \circfour nuestro CoREB-Reranker ajustado es el primero en lograr ganancias consistentes en las tres tareas. Los datos y el modelo se publican.

English

Code search has usually been evaluated as first-stage retrieval, even though production systems rely on broader pipelines with reranking and developer-style queries. Existing benchmarks also suffer from data contamination, label noise, and degenerate binary relevance. In this paper, we introduce CoREB, a contamination-limited, multitask code retrieval and reranking benchmark, together with a fine-tuned code reranker, that goes beyond retrieval to cover the full code search pipeline. CoREB is built from counterfactually rewritten LiveCodeBench problems in five programming languages and delivered as timed releases with graded relevance judgments. We benchmark eleven embedding models and five rerankers across three tasks: text-to-code, code-to-text, and code-to-code. Our experiments reveal that: \circone code-specialised embeddings dominate code-to-code retrieval ({sim}2{times} over general encoders), yet no single model wins all three tasks; \circtwo short keyword queries, the format closest to real developer search, collapse every model to near-zero nDCG@10; \circthree off-the-shelf rerankers are task-asymmetric, with a 12-point swing on code-to-code and no baseline net-positive across all tasks; \circfour our fine-tuned CoREB-Reranker is the first to achieve consistent gains across all three tasks. The data and model are released.

Más allá de la Recuperación: Un Punto de Referencia y Modelo Multitarea para la Búsqueda de Código

Beyond Retrieval: A Multitask Benchmark and Model for Code Search

Resumen

Support