LoRACode: Adattatori LoRA per Embedding di Codice
LoRACode: LoRA Adapters for Code Embeddings
March 7, 2025
Autori: Saumya Chaturvedi, Aman Chadha, Laurent Bindschaedler
cs.AI
Abstract
Gli embedding di codice sono essenziali per la ricerca semantica del codice; tuttavia, gli approcci attuali spesso faticano a catturare le precise sfumature sintattiche e contestuali intrinseche nel codice. Modelli open-source come CodeBERT e UniXcoder presentano limitazioni in termini di scalabilità ed efficienza, mentre i sistemi proprietari ad alte prestazioni impongono costi computazionali sostanziali. Introduciamo un metodo di fine-tuning efficiente in termini di parametri basato su Low-Rank Adaptation (LoRA) per costruire adattatori specifici per il task di recupero del codice. Il nostro approccio riduce il numero di parametri addestrabili a meno del due percento del modello di base, consentendo un rapido fine-tuning su ampi corpora di codice (2 milioni di campioni in 25 minuti su due GPU H100). Gli esperimenti dimostrano un aumento fino al 9,1% nel Mean Reciprocal Rank (MRR) per la ricerca Code2Code e fino all'86,69% per i task di ricerca Text2Code in più linguaggi di programmazione. La distinzione nell'adattamento per task e per linguaggio aiuta a esplorare la sensibilità del recupero del codice rispetto alle variazioni sintattiche e linguistiche.
English
Code embeddings are essential for semantic code search; however, current
approaches often struggle to capture the precise syntactic and contextual
nuances inherent in code. Open-source models such as CodeBERT and UniXcoder
exhibit limitations in scalability and efficiency, while high-performing
proprietary systems impose substantial computational costs. We introduce a
parameter-efficient fine-tuning method based on Low-Rank Adaptation (LoRA) to
construct task-specific adapters for code retrieval. Our approach reduces the
number of trainable parameters to less than two percent of the base model,
enabling rapid fine-tuning on extensive code corpora (2 million samples in 25
minutes on two H100 GPUs). Experiments demonstrate an increase of up to 9.1% in
Mean Reciprocal Rank (MRR) for Code2Code search, and up to 86.69% for Text2Code
search tasks across multiple programming languages. Distinction in task-wise
and language-wise adaptation helps explore the sensitivity of code retrieval
for syntactical and linguistic variations.Summary
AI-Generated Summary