LoRACode: Adaptadores LoRA para Incrustaciones de Código
LoRACode: LoRA Adapters for Code Embeddings
March 7, 2025
Autores: Saumya Chaturvedi, Aman Chadha, Laurent Bindschaedler
cs.AI
Resumen
Los embeddings de código son esenciales para la búsqueda semántica de código; sin embargo, los enfoques actuales a menudo tienen dificultades para capturar los matices sintácticos y contextuales precisos inherentes al código. Los modelos de código abierto como CodeBERT y UniXcoder presentan limitaciones en escalabilidad y eficiencia, mientras que los sistemas propietarios de alto rendimiento imponen costos computacionales sustanciales. Introducimos un método de ajuste fino eficiente en parámetros basado en Low-Rank Adaptation (LoRA) para construir adaptadores específicos de tareas para la recuperación de código. Nuestro enfoque reduce el número de parámetros entrenables a menos del dos por ciento del modelo base, permitiendo un ajuste rápido en corpus extensos de código (2 millones de muestras en 25 minutos en dos GPUs H100). Los experimentos demuestran un aumento de hasta el 9.1% en el Mean Reciprocal Rank (MRR) para búsquedas de Code2Code, y hasta el 86.69% para tareas de búsqueda de Text2Code en múltiples lenguajes de programación. La distinción en la adaptación por tarea y por lenguaje ayuda a explorar la sensibilidad de la recuperación de código ante variaciones sintácticas y lingüísticas.
English
Code embeddings are essential for semantic code search; however, current
approaches often struggle to capture the precise syntactic and contextual
nuances inherent in code. Open-source models such as CodeBERT and UniXcoder
exhibit limitations in scalability and efficiency, while high-performing
proprietary systems impose substantial computational costs. We introduce a
parameter-efficient fine-tuning method based on Low-Rank Adaptation (LoRA) to
construct task-specific adapters for code retrieval. Our approach reduces the
number of trainable parameters to less than two percent of the base model,
enabling rapid fine-tuning on extensive code corpora (2 million samples in 25
minutes on two H100 GPUs). Experiments demonstrate an increase of up to 9.1% in
Mean Reciprocal Rank (MRR) for Code2Code search, and up to 86.69% for Text2Code
search tasks across multiple programming languages. Distinction in task-wise
and language-wise adaptation helps explore the sensitivity of code retrieval
for syntactical and linguistic variations.Summary
AI-Generated Summary