Jenseits des Retrieval: Ein Multitask-Benchmark und Modell für die Codesuche

Zusammenfassung

Die Codesuche wurde üblicherweise als erststufiges Retrieval evaluiert, obwohl Produktionssysteme auf breiteren Pipelines mit Reranking und entwicklertypischen Abfragen basieren. Bestehende Benchmarks leiden zudem unter Datenkontamination, Label-Rauschen und degenerierter binärer Relevanz. In dieser Arbeit stellen wir CoREB vor, einen kontaminationslimitierten, multitasking-fähigen Code-Retrieval- und Reranking-Benchmark, zusammen mit einem feinabgestimmten Code-Reranker, der über das reine Retrieval hinaus den gesamten Codesuch-Pipeline abdeckt. CoREB basiert auf kontrafaktisch umgeschriebenen LiveCodeBench-Problemen in fünf Programmiersprachen und wird als zeitlich gestaffelte Veröffentlichungen mit abgestuften Relevanzbewertungen bereitgestellt. Wir bewerten elf Embedding-Modelle und fünf Reranker über drei Aufgaben hinweg: Text-zu-Code, Code-zu-Text und Code-zu-Code. Unsere Experimente zeigen, dass: ① codespezialisierte Embeddings das Code-zu-Code-Retrieval dominieren (ca. 2× gegenüber allgemeinen Encodern), jedoch kein einzelnes Modell alle drei Aufgaben gewinnt; ② kurze Keyword-Abfragen, das Format, das echten Entwicklersuchen am nächsten kommt, jedes Modell auf nahezu null nDCG@10 kollabieren lassen; ③ Standard-Reranker aufgabenasymmetrisch sind, mit einer Schwankung von 12 Punkten bei Code-zu-Code und keiner Baseline, die netto positiv über alle Aufgaben ist; ④ unser feinabgestimmter CoREB-Reranker der erste ist, der konsistente Verbesserungen über alle drei Aufgaben erzielt. Die Daten und das Modell werden veröffentlicht.

English

Code search has usually been evaluated as first-stage retrieval, even though production systems rely on broader pipelines with reranking and developer-style queries. Existing benchmarks also suffer from data contamination, label noise, and degenerate binary relevance. In this paper, we introduce CoREB, a contamination-limited, multitask code retrieval and reranking benchmark, together with a fine-tuned code reranker, that goes beyond retrieval to cover the full code search pipeline. CoREB is built from counterfactually rewritten LiveCodeBench problems in five programming languages and delivered as timed releases with graded relevance judgments. We benchmark eleven embedding models and five rerankers across three tasks: text-to-code, code-to-text, and code-to-code. Our experiments reveal that: \circone code-specialised embeddings dominate code-to-code retrieval ({sim}2{times} over general encoders), yet no single model wins all three tasks; \circtwo short keyword queries, the format closest to real developer search, collapse every model to near-zero nDCG@10; \circthree off-the-shelf rerankers are task-asymmetric, with a 12-point swing on code-to-code and no baseline net-positive across all tasks; \circfour our fine-tuned CoREB-Reranker is the first to achieve consistent gains across all three tasks. The data and model are released.

Jenseits des Retrieval: Ein Multitask-Benchmark und Modell für die Codesuche

Beyond Retrieval: A Multitask Benchmark and Model for Code Search

Zusammenfassung

Support