LoRACode : Adaptateurs LoRA pour les embeddings de code
LoRACode: LoRA Adapters for Code Embeddings
March 7, 2025
Auteurs: Saumya Chaturvedi, Aman Chadha, Laurent Bindschaedler
cs.AI
Résumé
Les embeddings de code sont essentiels pour la recherche sémantique de code ; cependant, les approches actuelles peinent souvent à capturer les nuances syntaxiques et contextuelles précises inhérentes au code. Les modèles open source tels que CodeBERT et UniXcoder présentent des limitations en termes de scalabilité et d'efficacité, tandis que les systèmes propriétaires à haute performance imposent des coûts computationnels substantiels. Nous introduisons une méthode de fine-tuning paramétriquement efficace basée sur l'Adaptation de Bas Rang (LoRA) pour construire des adaptateurs spécifiques à la tâche de récupération de code. Notre approche réduit le nombre de paramètres entraînables à moins de deux pour cent du modèle de base, permettant un fine-tuning rapide sur des corpus de code étendus (2 millions d'échantillons en 25 minutes sur deux GPU H100). Les expériences démontrent une augmentation allant jusqu'à 9,1 % du Rang Moyen Réciproque (MRR) pour les tâches de recherche Code2Code, et jusqu'à 86,69 % pour les tâches de recherche Text2Code, couvrant plusieurs langages de programmation. La distinction dans l'adaptation par tâche et par langage aide à explorer la sensibilité de la récupération de code face aux variations syntaxiques et linguistiques.
English
Code embeddings are essential for semantic code search; however, current
approaches often struggle to capture the precise syntactic and contextual
nuances inherent in code. Open-source models such as CodeBERT and UniXcoder
exhibit limitations in scalability and efficiency, while high-performing
proprietary systems impose substantial computational costs. We introduce a
parameter-efficient fine-tuning method based on Low-Rank Adaptation (LoRA) to
construct task-specific adapters for code retrieval. Our approach reduces the
number of trainable parameters to less than two percent of the base model,
enabling rapid fine-tuning on extensive code corpora (2 million samples in 25
minutes on two H100 GPUs). Experiments demonstrate an increase of up to 9.1% in
Mean Reciprocal Rank (MRR) for Code2Code search, and up to 86.69% for Text2Code
search tasks across multiple programming languages. Distinction in task-wise
and language-wise adaptation helps explore the sensitivity of code retrieval
for syntactical and linguistic variations.Summary
AI-Generated Summary