Relatório Técnico C2LLM: Uma Nova Fronteira na Recuperação de Código via Agrupamento por Cross-Atenção Adaptativa
C2LLM Technical Report: A New Frontier in Code Retrieval via Adaptive Cross-Attention Pooling
December 24, 2025
Autores: Jin Qin, Zihan Liao, Ziyin Zhang, Hang Yu, Peng Di, Rui Wang
cs.AI
Resumo
Apresentamos o C2LLM - Contrastive Code Large Language Models, uma família de modelos de incorporação de código (code embedding models) nos tamanhos 0,5B e 7B. Com base na arquitetura Qwen-2.5-Coder, o C2LLM adota um módulo de Pooling por Atenção Multihead (PMA) para gerar a incorporação de sequência a partir das incorporações de token, efetivamente 1) utilizando as representações causais do LLM adquiridas durante o pré-treinamento, 2) sendo capaz de agregar informações de todos os tokens na sequência, quebrando o gargalo de informação nas incorporações de sequência baseadas em EOS, e 3) suportando a adaptação flexível da dimensão de incorporação, servindo como uma alternativa ao MRL. Treinados em três milhões de dados publicamente disponíveis, os modelos C2LLM estabelecem novos recordes no MTEB-Code entre modelos de tamanhos similares, com o C2LLM-7B ocupando a 1ª posição no ranking geral.
English
We present C2LLM - Contrastive Code Large Language Models, a family of code embedding models in both 0.5B and 7B sizes. Building upon Qwen-2.5-Coder backbones, C2LLM adopts a Pooling by Multihead Attention (PMA) module for generating sequence embedding from token embeddings, effectively 1) utilizing the LLM's causal representations acquired during pretraining, while also 2) being able to aggregate information from all tokens in the sequence, breaking the information bottleneck in EOS-based sequence embeddings, and 3) supporting flexible adaptation of embedding dimension, serving as an alternative to MRL. Trained on three million publicly available data, C2LLM models set new records on MTEB-Code among models of similar sizes, with C2LLM-7B ranking 1st on the overall leaderboard.