Voorbij Retrieval: Een Multitaakbenchmark en Model voor Code Search

Samenvatting

Codezoeken is gewoonlijk geëvalueerd als eerste-fase retrieval, hoewel productiesystemen vertrouwen op bredere pijplijnen met herordening en ontwikkelaar-achtige query's. Bestaande benchmarks lijden ook onder datacontaminatie, labelruis en ontaarde binaire relevantie. In dit artikel introduceren we CoREB, een contaminatie-beperkte, multitask code retrieval- en herordeningsbenchmark, samen met een fijn afgestelde codeherordener, die verder gaat dan retrieval om de volledige codezoekpijplijn te bestrijken. CoREB is gebouwd uit contrafeitelijk herschreven LiveCodeBench-problemen in vijf programmeertalen en wordt geleverd als tijdsgebonden releases met gestaffelde relevantiebeoordelingen. We benchmarken elf embeddmodellen en vijf herordenaars over drie taken: tekst-naar-code, code-naar-tekst en code-naar-code. Onze experimenten onthullen dat: \circone code-gespecialiseerde embeddings domineren code-naar-code retrieval ({sim}2{times} ten opzichte van algemene encoders), maar geen enkel model wint alle drie de taken; \circtwee korte trefwoordquery's, het formaat dat het dichtst bij echt ontwikkelaarzoeken staat, laten elk model instorten tot bijna nul nDCG@10; \circle drie kant-en-klare herordenaars zijn taak-asymmetrisch, met een 12-punts verschil op code-naar-code en geen baseline netto positief over alle taken; \circfour onze fijn afgestelde CoREB-Herordener is de eerste die consistente winst behaalt over alle drie de taken. De gegevens en het model worden vrijgegeven.

English

Code search has usually been evaluated as first-stage retrieval, even though production systems rely on broader pipelines with reranking and developer-style queries. Existing benchmarks also suffer from data contamination, label noise, and degenerate binary relevance. In this paper, we introduce CoREB, a contamination-limited, multitask code retrieval and reranking benchmark, together with a fine-tuned code reranker, that goes beyond retrieval to cover the full code search pipeline. CoREB is built from counterfactually rewritten LiveCodeBench problems in five programming languages and delivered as timed releases with graded relevance judgments. We benchmark eleven embedding models and five rerankers across three tasks: text-to-code, code-to-text, and code-to-code. Our experiments reveal that: \circone code-specialised embeddings dominate code-to-code retrieval ({sim}2{times} over general encoders), yet no single model wins all three tasks; \circtwo short keyword queries, the format closest to real developer search, collapse every model to near-zero nDCG@10; \circthree off-the-shelf rerankers are task-asymmetric, with a 12-point swing on code-to-code and no baseline net-positive across all tasks; \circfour our fine-tuned CoREB-Reranker is the first to achieve consistent gains across all three tasks. The data and model are released.

Voorbij Retrieval: Een Multitaakbenchmark en Model voor Code Search

Beyond Retrieval: A Multitask Benchmark and Model for Code Search

Samenvatting

Support