C2LLM Technischer Bericht: Eine neue Grenze in der Code-Retrieval durch adaptive Cross-Attention-Pooling
C2LLM Technical Report: A New Frontier in Code Retrieval via Adaptive Cross-Attention Pooling
December 24, 2025
papers.authors: Jin Qin, Zihan Liao, Ziyin Zhang, Hang Yu, Peng Di, Rui Wang
cs.AI
papers.abstract
Wir stellen C2LLM – Contrastive Code Large Language Models vor, eine Familie von Code-Einbettungsmodellen in 0,5B- und 7B-Größen. Aufbauend auf Qwen-2.5-Coder-Architekturen nutzt C2LLM ein Pooling-by-Multihead-Attention (PMA)-Modul zur Erzeugung von Sequenzeinbettungen aus Token-Einbettungen. Dies ermöglicht effektiv 1) die Nutzung der kausalen Repräsentationen des LLM aus dem Pre-training, 2) die Aggregation von Informationen aller Tokens der Sequenz, wodurch der Informationsengpass bei EOS-basierten Sequenzeinbettungen überwunden wird, und 3) die flexible Anpassung der Einbettungsdimension als Alternative zu MRL. Nach Training mit drei Millionen öffentlich verfügbaren Datensätzen setzen C2LLM-Modelle neue Bestwerte auf MTEB-Code bei Modellen vergleichbarer Größe, wobei C2LLM-7B den ersten Platz im Gesamt-Ranking belegt.
English
We present C2LLM - Contrastive Code Large Language Models, a family of code embedding models in both 0.5B and 7B sizes. Building upon Qwen-2.5-Coder backbones, C2LLM adopts a Pooling by Multihead Attention (PMA) module for generating sequence embedding from token embeddings, effectively 1) utilizing the LLM's causal representations acquired during pretraining, while also 2) being able to aggregate information from all tokens in the sequence, breaking the information bottleneck in EOS-based sequence embeddings, and 3) supporting flexible adaptation of embedding dimension, serving as an alternative to MRL. Trained on three million publicly available data, C2LLM models set new records on MTEB-Code among models of similar sizes, with C2LLM-7B ranking 1st on the overall leaderboard.