Miglioramento della generazione di codice per lingue a bassa risorsa: Non esiste una soluzione miracolosa.

Abstract

L'avvento dei Grandi Modelli Linguistici (LLM) ha notevolmente avanzato il campo della generazione automatica di codice. I LLM si basano su set di dati ampi e diversificati per apprendere la sintassi, la semantica e i modelli di utilizzo dei linguaggi di programmazione. Per i linguaggi a bassa risorsa (ossia, linguaggi di programmazione di nicchia caratterizzati dalla scarsità di dati di addestramento), la limitata disponibilità di tali dati ostacola la capacità dei modelli di generalizzare in modo efficace, risultando in una performance di generazione del codice inferiore rispetto ai linguaggi ad alta risorsa. Per questo motivo, c'è una ricerca di tecniche in grado di colmare questo divario di performance. Presentiamo uno studio empirico che indaga sull'efficacia di diversi approcci per potenziare le prestazioni dei LLM nei linguaggi a bassa risorsa, ovvero: (i) un classico fine-tuning, limitato in dimensioni dalla scarsità dei dati di addestramento; (ii) tre varianti di apprendimento in contesto, con prompt creati per fornire al LLM informazioni aggiuntive sul linguaggio a bassa risorsa (ad esempio, esempi di pochi colpi che mostrano le caratteristiche del linguaggio prescelto); e (iii) un obiettivo di pre-addestramento che insegna al modello come tradurre tra linguaggi ad alta e bassa risorsa. Il contesto del nostro studio sono due linguaggi a bassa risorsa (R e Racket) e sei LLM con architetture e dimensioni diverse. Le nostre scoperte rivelano che un fine-tuning è di solito la scelta migliore per i LLM più piccoli, probabilmente a causa del fatto che anche un piccolo set di dati è sufficiente per addestrare il loro limitato numero di parametri. Con l'aumento delle dimensioni dei modelli, l'apprendimento in contesto diventa sempre più efficace, rappresentando una scommessa sicura ed economica (ossia, aiuta sempre, ma con diverse magnitudini). Al contrario, i LLM molto grandi potrebbero deteriorare le loro prestazioni nei linguaggi a bassa risorsa quando viene eseguito il fine-tuning, probabilmente a causa della mancanza di dati sufficienti necessari per aggiornare efficacemente i loro pesi.

English

The advent of Large Language Models (LLMs) has significantly advanced the field of automated code generation. LLMs rely on large and diverse datasets to learn syntax, semantics, and usage patterns of programming languages. For low-resource languages (i.e., niche programming languages characterized by the scarcity of training data), the limited availability of such data hampers the models' ability to generalize effectively, resulting in poorer code generation performance as compared to high-resource languages. For this reason, there is a quest for techniques able to close this performance gap. We present an empirical study investigating the effectiveness of several approaches for boosting LLMs' performance on low-resource languages, namely: (i) a classic fine-tuning, which is however capped in size by the scarcity of training data; (ii) three variants of in-context learning, with prompts crafted to provide the LLM with additional information about the low-resource language (e.g., few-shot examples showcasing features of the targeted language); and (iii) a pre-training objective teaching the model how to translate between high- and low-resource languages. The context of our study are two low-resource languages (R and Racket) and six LLMs having different architectures and sizes. Our findings reveal that a fine-tuning is usually the best choice for smaller LLMs, possibly due to the fact that even a small dataset is sufficient to train their limited number of parameters. With the increase in size of the models, in-context learning becomes more and more effective, representing a safe and cheap bet (i.e., it always helps, but with different magnitudes). Differently, very large LLMs may deteriorate their performance on low-resource languages when fine-tuning is performed, possibly due to the lack of enough data needed to effectively update their weights.

Miglioramento della generazione di codice per lingue a bassa risorsa: Non esiste una soluzione miracolosa.

Enhancing Code Generation for Low-Resource Languages: No Silver Bullet

Abstract

Support