LoRACode: LoRA-adapters voor code-embeddings
LoRACode: LoRA Adapters for Code Embeddings
March 7, 2025
Auteurs: Saumya Chaturvedi, Aman Chadha, Laurent Bindschaedler
cs.AI
Samenvatting
Code-embeddings zijn essentieel voor semantische codezoekopdrachten; huidige
benaderingen hebben echter vaak moeite om de precieze syntactische en contextuele
nuances in code vast te leggen. Open-source modellen zoals CodeBERT en UniXcoder
vertonen beperkingen in schaalbaarheid en efficiëntie, terwijl hoogpresterende
propriëtaire systemen aanzienlijke rekenkosten met zich meebrengen. Wij introduceren een
parameter-efficiënte fine-tuningmethode gebaseerd op Low-Rank Adaptation (LoRA) om
taakspecifieke adapters te bouwen voor coderetrieval. Onze aanpak reduceert het aantal
trainbare parameters tot minder dan twee procent van het basismodel, waardoor snelle
fine-tuning op uitgebreide codecorpora mogelijk wordt (2 miljoen samples in 25
minuten op twee H100 GPU's). Experimenten tonen een verbetering van tot 9,1% in
Mean Reciprocal Rank (MRR) voor Code2Code-zoekopdrachten, en tot 86,69% voor Text2Code-
zoekopdrachten in meerdere programmeertalen. Het onderscheid in taak- en taalgerichte
aanpassing helpt bij het onderzoeken van de gevoeligheid van coderetrieval voor
syntactische en linguïstische variaties.
English
Code embeddings are essential for semantic code search; however, current
approaches often struggle to capture the precise syntactic and contextual
nuances inherent in code. Open-source models such as CodeBERT and UniXcoder
exhibit limitations in scalability and efficiency, while high-performing
proprietary systems impose substantial computational costs. We introduce a
parameter-efficient fine-tuning method based on Low-Rank Adaptation (LoRA) to
construct task-specific adapters for code retrieval. Our approach reduces the
number of trainable parameters to less than two percent of the base model,
enabling rapid fine-tuning on extensive code corpora (2 million samples in 25
minutes on two H100 GPUs). Experiments demonstrate an increase of up to 9.1% in
Mean Reciprocal Rank (MRR) for Code2Code search, and up to 86.69% for Text2Code
search tasks across multiple programming languages. Distinction in task-wise
and language-wise adaptation helps explore the sensitivity of code retrieval
for syntactical and linguistic variations.Summary
AI-Generated Summary