Waarom Personalisatie van Deep Learning-gebaseerde Code Completion Tools Belangrijk Is

Samenvatting

Deep learning (DL)-gebaseerde code-completiontools hebben softwareontwikkeling getransformeerd door geavanceerde codegeneratie mogelijk te maken. Deze tools maken gebruik van modellen die getraind zijn op enorme hoeveelheden code uit talloze repositories, waardoor algemene codeerpatronen worden vastgelegd. De impact van het fine-tunen van deze modellen voor specifieke organisaties of ontwikkelaars om hun prestaties op dergelijke onderwerpen te verbeteren, blijft echter onontgonnen. In dit werk vullen we deze leemte door solide empirisch bewijs te presenteren dat deze vraag beantwoordt. Meer specifiek bekijken we 136 ontwikkelaars van twee organisaties (Apache en Spring), twee modelarchitecturen (T5 en Code Llama) en drie modelgroottes (60M, 750M en 7B trainbare parameters). T5-modellen (60M, 750M) werden voorgetraind en gefinetuned op meer dan 2.000 open-sourceprojecten, exclusief de gegevens van de onderzochte organisaties, en vergeleken met versies die gefinetuned waren op organisatie- en ontwikkelaarspecifieke datasets. Voor het Code Llama-model (7B) vergeleken we de prestaties van het al voorgetrainde model dat online beschikbaar is met hetzelfde model dat gefinetuned was via parameter-efficiënt fine-tunen op organisatie- en ontwikkelaarspecifieke datasets. Onze resultaten laten zien dat er een verbetering is in de voorspellingsmogelijkheden door zowel een organisatie-specifieke als een ontwikkelaar-specifieke aanvullende fine-tuning, waarbij de eerste bijzonder goed presteert. Deze bevinding geldt algemeen voor (i) de twee onderzochte organisaties (d.w.z. Apache en Spring) en (ii) modellen van volledig verschillende omvang (van 60M tot 7B trainbare parameters). Tot slot tonen we aan dat DL-modellen die gefinetuned zijn op een organisatie-specifieke dataset dezelfde completionprestaties bereiken als voorgetrainde codemodellen die out of the box worden gebruikt en die ongeveer 10 keer groter zijn, wat resulteert in besparingen op het gebied van implementatie- en inferentiekosten (bijv. kleinere GPU's die nodig zijn).

English

Deep learning (DL)-based code completion tools have transformed software development by enabling advanced code generation. These tools leverage models trained on vast amounts of code from numerous repositories, capturing general coding patterns. However, the impact of fine-tuning these models for specific organizations or developers to boost their performance on such subjects remains unexplored. In this work, we fill this gap by presenting solid empirical evidence answering this question. More specifically, we consider 136 developers from two organizations (Apache and Spring), two model architectures (T5 and Code Llama), and three model sizes (60M, 750M, and 7B trainable parameters). T5 models (60M, 750M) were pre-trained and fine-tuned on over 2,000 open-source projects, excluding the subject organizations' data, and compared against versions fine-tuned on organization- and developer-specific datasets. For the Code Llama model (7B), we compared the performance of the already pre-trained model publicly available online with the same model fine-tuned via parameter-efficient fine-tuning on organization- and developer-specific datasets. Our results show that there is a boost in prediction capabilities provided by both an organization-specific and a developer-specific additional fine-tuning, with the former being particularly performant. Such a finding generalizes across (i) the two subject organizations (i.e., Apache and Spring) and (ii) models of completely different magnitude (from 60M to 7B trainable parameters). Finally, we show that DL models fine-tuned on an organization-specific dataset achieve the same completion performance of pre-trained code models used out of the box and being sim10times larger, with consequent savings in terms of deployment and inference cost (e.g., smaller GPUs needed).

Waarom Personalisatie van Deep Learning-gebaseerde Code Completion Tools Belangrijk Is

Why Personalizing Deep Learning-Based Code Completion Tools Matters

Samenvatting

Support