Verbesserung der Codegenerierung für Sprachen mit geringen Ressourcen: Keine Silberkugel

papers.abstract

Das Aufkommen von großen Sprachmodellen (Large Language Models, LLMs) hat das Feld der automatisierten Codegenerierung erheblich vorangetrieben. LLMs stützen sich auf große und vielfältige Datensätze, um die Syntax, Semantik und Verwendungsmuster von Programmiersprachen zu erlernen. Für Sprachen mit geringen Ressourcen (d. h. Nischensprachen, die durch die Knappheit von Trainingsdaten gekennzeichnet sind) behindert die begrenzte Verfügbarkeit solcher Daten die Fähigkeit der Modelle, effektiv zu generalisieren, was zu einer schlechteren Codegenerierungsleistung im Vergleich zu Sprachen mit hohen Ressourcen führt. Aus diesem Grund wird nach Techniken gesucht, die in der Lage sind, diese Leistungslücke zu schließen. Wir präsentieren eine empirische Studie, die die Wirksamkeit mehrerer Ansätze zur Steigerung der Leistung von LLMs in Sprachen mit geringen Ressourcen untersucht, nämlich: (i) ein klassisches Fine-Tuning, das jedoch in seiner Größe durch die Knappheit der Trainingsdaten begrenzt ist; (ii) drei Varianten des In-Context-Lernens, bei denen Anweisungen so gestaltet sind, dass dem LLM zusätzliche Informationen über die Sprache mit geringen Ressourcen (z. B. Few-Shot-Beispiele, die Merkmale der gezielten Sprache zeigen) bereitgestellt werden; und (iii) ein Vortrainierungsziel, das dem Modell beibringt, wie man zwischen Sprachen mit hohen und geringen Ressourcen übersetzt. Der Kontext unserer Studie sind zwei Sprachen mit geringen Ressourcen (R und Racket) und sechs LLMs mit unterschiedlichen Architekturen und Größen. Unsere Ergebnisse zeigen, dass ein Fine-Tuning in der Regel die beste Wahl für kleinere LLMs ist, möglicherweise aufgrund der Tatsache, dass bereits ein kleiner Datensatz ausreicht, um ihre begrenzte Anzahl an Parametern zu trainieren. Mit zunehmender Größe der Modelle wird das In-Context-Lernen immer effektiver und stellt eine sichere und kostengünstige Option dar (d. h. es hilft immer, aber in unterschiedlichem Maße). Im Gegensatz dazu können sehr große LLMs ihre Leistung in Sprachen mit geringen Ressourcen verschlechtern, wenn ein Fine-Tuning durchgeführt wird, möglicherweise aufgrund des Mangels an ausreichenden Daten, die benötigt werden, um ihre Gewichte effektiv zu aktualisieren.

English

The advent of Large Language Models (LLMs) has significantly advanced the field of automated code generation. LLMs rely on large and diverse datasets to learn syntax, semantics, and usage patterns of programming languages. For low-resource languages (i.e., niche programming languages characterized by the scarcity of training data), the limited availability of such data hampers the models' ability to generalize effectively, resulting in poorer code generation performance as compared to high-resource languages. For this reason, there is a quest for techniques able to close this performance gap. We present an empirical study investigating the effectiveness of several approaches for boosting LLMs' performance on low-resource languages, namely: (i) a classic fine-tuning, which is however capped in size by the scarcity of training data; (ii) three variants of in-context learning, with prompts crafted to provide the LLM with additional information about the low-resource language (e.g., few-shot examples showcasing features of the targeted language); and (iii) a pre-training objective teaching the model how to translate between high- and low-resource languages. The context of our study are two low-resource languages (R and Racket) and six LLMs having different architectures and sizes. Our findings reveal that a fine-tuning is usually the best choice for smaller LLMs, possibly due to the fact that even a small dataset is sufficient to train their limited number of parameters. With the increase in size of the models, in-context learning becomes more and more effective, representing a safe and cheap bet (i.e., it always helps, but with different magnitudes). Differently, very large LLMs may deteriorate their performance on low-resource languages when fine-tuning is performed, possibly due to the lack of enough data needed to effectively update their weights.

Verbesserung der Codegenerierung für Sprachen mit geringen Ressourcen: Keine Silberkugel

Enhancing Code Generation for Low-Resource Languages: No Silver Bullet

papers.abstract

Support