Informe Técnico de C2LLM: Una Nueva Frontera en la Recuperación de Código mediante Agrupación Adaptativa por Atención Cruzada
C2LLM Technical Report: A New Frontier in Code Retrieval via Adaptive Cross-Attention Pooling
December 24, 2025
Autores: Jin Qin, Zihan Liao, Ziyin Zhang, Hang Yu, Peng Di, Rui Wang
cs.AI
Resumen
Presentamos C2LLM - Contrastive Code Large Language Models, una familia de modelos de incrustación de código disponible en tamaños de 0.5B y 7B parámetros. Basándose en la arquitectura Qwen-2.5-Coder, C2LLM incorpora un módulo de Agrupación por Atención Multi-Cabezal (PMA) para generar incrustaciones de secuencia a partir de incrustaciones de tokens, lo que permite: 1) utilizar eficazmente las representaciones causales del LLM adquiridas durante el preentrenamiento, 2) agregar información de todos los tokens de la secuencia, superando el cuello de botella informativo de las incrustaciones basadas en EOS, y 3) admitir la adaptación flexible de la dimensión de incrustación, sirviendo como alternativa a MRL. Entrenados con tres millones de datos de acceso público, los modelos C2LLM establecen nuevos récords en MTEB-Code entre modelos de tamaños similares, con C2LLM-7B ocupando el primer puesto en la clasificación general.
English
We present C2LLM - Contrastive Code Large Language Models, a family of code embedding models in both 0.5B and 7B sizes. Building upon Qwen-2.5-Coder backbones, C2LLM adopts a Pooling by Multihead Attention (PMA) module for generating sequence embedding from token embeddings, effectively 1) utilizing the LLM's causal representations acquired during pretraining, while also 2) being able to aggregate information from all tokens in the sequence, breaking the information bottleneck in EOS-based sequence embeddings, and 3) supporting flexible adaptation of embedding dimension, serving as an alternative to MRL. Trained on three million publicly available data, C2LLM models set new records on MTEB-Code among models of similar sizes, with C2LLM-7B ranking 1st on the overall leaderboard.