За рамками извлечения: Многозадачный бенчмарк и модель для поиска кода

Аннотация

Поиск кода обычно оценивался как поиск первого этапа, хотя производственные системы опираются на более широкие конвейеры с переранжированием и запросами в стиле разработчиков. Существующие бенчмарки также страдают от загрязнения данных, шума в метках и вырожденной бинарной релевантности. В данной статье мы представляем CoREB — ограниченный по загрязнению многозадачный бенчмарк для поиска и переранжирования кода, а также доработанный переранжировщик кода, который выходит за рамки поиска и охватывает полный конвейер поиска кода. CoREB построен на основе контрфактически переписанных задач LiveCodeBench на пяти языках программирования и выпускается в виде версий с привязкой ко времени, содержащих градуированные оценки релевантности. Мы оцениваем одиннадцать моделей эмбеддингов и пять переранжировщиков по трём задачам: текст-код, код-текст и код-код. Наши эксперименты показывают, что: 1) специализированные эмбеддинги кода доминируют в поиске код-код (примерно в два раза превосходят универсальные кодировщики), однако ни одна модель не побеждает во всех трёх задачах; 2) короткие ключевые запросы, наиболее близкие по формату к реальным запросам разработчиков, снижают показатель nDCG@10 всех моделей почти до нуля; 3) готовые переранжировщики асимметричны по задачам, с разбросом в 12 пунктов на задаче код-код, и ни один базовый вариант не даёт чистого положительного прироста по всем задачам; 4) наш доработанный CoREB-Reranker является первым, кто достигает последовательного прироста по всем трём задачам. Данные и модель публикуются.

English

Code search has usually been evaluated as first-stage retrieval, even though production systems rely on broader pipelines with reranking and developer-style queries. Existing benchmarks also suffer from data contamination, label noise, and degenerate binary relevance. In this paper, we introduce CoREB, a contamination-limited, multitask code retrieval and reranking benchmark, together with a fine-tuned code reranker, that goes beyond retrieval to cover the full code search pipeline. CoREB is built from counterfactually rewritten LiveCodeBench problems in five programming languages and delivered as timed releases with graded relevance judgments. We benchmark eleven embedding models and five rerankers across three tasks: text-to-code, code-to-text, and code-to-code. Our experiments reveal that: \circone code-specialised embeddings dominate code-to-code retrieval ({sim}2{times} over general encoders), yet no single model wins all three tasks; \circtwo short keyword queries, the format closest to real developer search, collapse every model to near-zero nDCG@10; \circthree off-the-shelf rerankers are task-asymmetric, with a 12-point swing on code-to-code and no baseline net-positive across all tasks; \circfour our fine-tuned CoREB-Reranker is the first to achieve consistent gains across all three tasks. The data and model are released.