Waarom Personalisatie van Deep Learning-gebaseerde Code Completion Tools Belangrijk Is
Why Personalizing Deep Learning-Based Code Completion Tools Matters
March 18, 2025
Auteurs: Alessandro Giagnorio, Alberto Martin-Lopez, Gabriele Bavota
cs.AI
Samenvatting
Deep learning (DL)-gebaseerde code-completiontools hebben softwareontwikkeling getransformeerd door geavanceerde codegeneratie mogelijk te maken. Deze tools maken gebruik van modellen die getraind zijn op enorme hoeveelheden code uit talloze repositories, waardoor algemene codeerpatronen worden vastgelegd. De impact van het fine-tunen van deze modellen voor specifieke organisaties of ontwikkelaars om hun prestaties op dergelijke onderwerpen te verbeteren, blijft echter onontgonnen. In dit werk vullen we deze leemte door solide empirisch bewijs te presenteren dat deze vraag beantwoordt. Meer specifiek bekijken we 136 ontwikkelaars van twee organisaties (Apache en Spring), twee modelarchitecturen (T5 en Code Llama) en drie modelgroottes (60M, 750M en 7B trainbare parameters). T5-modellen (60M, 750M) werden voorgetraind en gefinetuned op meer dan 2.000 open-sourceprojecten, exclusief de gegevens van de onderzochte organisaties, en vergeleken met versies die gefinetuned waren op organisatie- en ontwikkelaarspecifieke datasets. Voor het Code Llama-model (7B) vergeleken we de prestaties van het al voorgetrainde model dat online beschikbaar is met hetzelfde model dat gefinetuned was via parameter-efficiënt fine-tunen op organisatie- en ontwikkelaarspecifieke datasets. Onze resultaten laten zien dat er een verbetering is in de voorspellingsmogelijkheden door zowel een organisatie-specifieke als een ontwikkelaar-specifieke aanvullende fine-tuning, waarbij de eerste bijzonder goed presteert. Deze bevinding geldt algemeen voor (i) de twee onderzochte organisaties (d.w.z. Apache en Spring) en (ii) modellen van volledig verschillende omvang (van 60M tot 7B trainbare parameters). Tot slot tonen we aan dat DL-modellen die gefinetuned zijn op een organisatie-specifieke dataset dezelfde completionprestaties bereiken als voorgetrainde codemodellen die out of the box worden gebruikt en die ongeveer 10 keer groter zijn, wat resulteert in besparingen op het gebied van implementatie- en inferentiekosten (bijv. kleinere GPU's die nodig zijn).
English
Deep learning (DL)-based code completion tools have transformed software
development by enabling advanced code generation. These tools leverage models
trained on vast amounts of code from numerous repositories, capturing general
coding patterns. However, the impact of fine-tuning these models for specific
organizations or developers to boost their performance on such subjects remains
unexplored. In this work, we fill this gap by presenting solid empirical
evidence answering this question. More specifically, we consider 136 developers
from two organizations (Apache and Spring), two model architectures (T5 and
Code Llama), and three model sizes (60M, 750M, and 7B trainable parameters). T5
models (60M, 750M) were pre-trained and fine-tuned on over 2,000 open-source
projects, excluding the subject organizations' data, and compared against
versions fine-tuned on organization- and developer-specific datasets. For the
Code Llama model (7B), we compared the performance of the already pre-trained
model publicly available online with the same model fine-tuned via
parameter-efficient fine-tuning on organization- and developer-specific
datasets. Our results show that there is a boost in prediction capabilities
provided by both an organization-specific and a developer-specific additional
fine-tuning, with the former being particularly performant. Such a finding
generalizes across (i) the two subject organizations (i.e., Apache and Spring)
and (ii) models of completely different magnitude (from 60M to 7B trainable
parameters). Finally, we show that DL models fine-tuned on an
organization-specific dataset achieve the same completion performance of
pre-trained code models used out of the box and being sim10times larger,
with consequent savings in terms of deployment and inference cost (e.g.,
smaller GPUs needed).Summary
AI-Generated Summary