LoRACode : Adaptateurs LoRA pour les embeddings de code

papers.abstract

Les embeddings de code sont essentiels pour la recherche sémantique de code ; cependant, les approches actuelles peinent souvent à capturer les nuances syntaxiques et contextuelles précises inhérentes au code. Les modèles open source tels que CodeBERT et UniXcoder présentent des limitations en termes de scalabilité et d'efficacité, tandis que les systèmes propriétaires à haute performance imposent des coûts computationnels substantiels. Nous introduisons une méthode de fine-tuning paramétriquement efficace basée sur l'Adaptation de Bas Rang (LoRA) pour construire des adaptateurs spécifiques à la tâche de récupération de code. Notre approche réduit le nombre de paramètres entraînables à moins de deux pour cent du modèle de base, permettant un fine-tuning rapide sur des corpus de code étendus (2 millions d'échantillons en 25 minutes sur deux GPU H100). Les expériences démontrent une augmentation allant jusqu'à 9,1 % du Rang Moyen Réciproque (MRR) pour les tâches de recherche Code2Code, et jusqu'à 86,69 % pour les tâches de recherche Text2Code, couvrant plusieurs langages de programmation. La distinction dans l'adaptation par tâche et par langage aide à explorer la sensibilité de la récupération de code face aux variations syntaxiques et linguistiques.

English

Code embeddings are essential for semantic code search; however, current approaches often struggle to capture the precise syntactic and contextual nuances inherent in code. Open-source models such as CodeBERT and UniXcoder exhibit limitations in scalability and efficiency, while high-performing proprietary systems impose substantial computational costs. We introduce a parameter-efficient fine-tuning method based on Low-Rank Adaptation (LoRA) to construct task-specific adapters for code retrieval. Our approach reduces the number of trainable parameters to less than two percent of the base model, enabling rapid fine-tuning on extensive code corpora (2 million samples in 25 minutes on two H100 GPUs). Experiments demonstrate an increase of up to 9.1% in Mean Reciprocal Rank (MRR) for Code2Code search, and up to 86.69% for Text2Code search tasks across multiple programming languages. Distinction in task-wise and language-wise adaptation helps explore the sensitivity of code retrieval for syntactical and linguistic variations.

LoRACode : Adaptateurs LoRA pour les embeddings de code

LoRACode: LoRA Adapters for Code Embeddings

papers.abstract

Support