LoRACode: Adaptadores LoRA para Incrustaciones de Código

Resumen

Los embeddings de código son esenciales para la búsqueda semántica de código; sin embargo, los enfoques actuales a menudo tienen dificultades para capturar los matices sintácticos y contextuales precisos inherentes al código. Los modelos de código abierto como CodeBERT y UniXcoder presentan limitaciones en escalabilidad y eficiencia, mientras que los sistemas propietarios de alto rendimiento imponen costos computacionales sustanciales. Introducimos un método de ajuste fino eficiente en parámetros basado en Low-Rank Adaptation (LoRA) para construir adaptadores específicos de tareas para la recuperación de código. Nuestro enfoque reduce el número de parámetros entrenables a menos del dos por ciento del modelo base, permitiendo un ajuste rápido en corpus extensos de código (2 millones de muestras en 25 minutos en dos GPUs H100). Los experimentos demuestran un aumento de hasta el 9.1% en el Mean Reciprocal Rank (MRR) para búsquedas de Code2Code, y hasta el 86.69% para tareas de búsqueda de Text2Code en múltiples lenguajes de programación. La distinción en la adaptación por tarea y por lenguaje ayuda a explorar la sensibilidad de la recuperación de código ante variaciones sintácticas y lingüísticas.

English

Code embeddings are essential for semantic code search; however, current approaches often struggle to capture the precise syntactic and contextual nuances inherent in code. Open-source models such as CodeBERT and UniXcoder exhibit limitations in scalability and efficiency, while high-performing proprietary systems impose substantial computational costs. We introduce a parameter-efficient fine-tuning method based on Low-Rank Adaptation (LoRA) to construct task-specific adapters for code retrieval. Our approach reduces the number of trainable parameters to less than two percent of the base model, enabling rapid fine-tuning on extensive code corpora (2 million samples in 25 minutes on two H100 GPUs). Experiments demonstrate an increase of up to 9.1% in Mean Reciprocal Rank (MRR) for Code2Code search, and up to 86.69% for Text2Code search tasks across multiple programming languages. Distinction in task-wise and language-wise adaptation helps explore the sensitivity of code retrieval for syntactical and linguistic variations.

LoRACode: Adaptadores LoRA para Incrustaciones de Código

LoRACode: LoRA Adapters for Code Embeddings

Resumen

Support