Keine Ressourcen, keine Benchmarks, kein Problem? Bewertung und Verbesserung von LLMs für die Codegenerierung in ressourcenlosen Sprachen

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) haben die Automatisierung von Softwareentwicklungsaufgaben erheblich vorangetrieben. Ein prominentes Beispiel ist die Codegenerierung, bei der ein LLM basierend auf einer Beschreibung in natürlicher Sprache Code in einer bestimmten Programmiersprache erzeugt. Die meiste Forschung in diesem Bereich konzentrierte sich auf ressourcenreiche Sprachen wie Python oder Java, die von reichhaltigen Trainingsdaten profitieren. Eine kleinere Anzahl von Arbeiten hat sich mit ressourcenarmen Sprachen befasst, die in Trainingskorpora unterrepräsentiert sind. Im Gegensatz dazu sind ressourcenlose Sprachen, für die LLMs praktisch keine Trainingsdaten gesehen haben, weitgehend unerforscht. Diese Sprachen entstehen häufig in der Industrie, wo Organisationen proprietäre oder domänenspezifische Sprachen entwickeln, die von kommerziellen Werkzeugen wie GitHub Copilot nicht unterstützt werden. Dies führt dazu, dass Unternehmen ihre eigenen internen Code-Empfehlungssysteme einsetzen müssen. Um mögliche Lösungen in diesem Kontext zu untersuchen, erstellen und veröffentlichen wir drei Codegenerierungs-Benchmarks für ressourcenlose Sprachen, basierend auf zwei kürzlich vorgeschlagenen Programmiersprachen, für die nur sehr wenige Trainingsdaten verfügbar sind. Mit diesen Benchmarks experimentieren wir mit mehreren Lösungen, um LLMs ressourcenlose Sprachen beizubringen, darunter promptbasierte Techniken sowie Vortraining und Feinabstimmung unter Nutzung der wenigen verfügbaren Daten. Während weiteres Vortraining die größten Leistungssteigerungen für ressourcenlose Sprachen bringt, beeinträchtigt seine direkte Anwendung auf instruktionsabgestimmte Modelle deren Fähigkeit, Anweisungen zu befolgen. Um dies zu adressieren, starten wir mit einem Basismodell, trainieren es weiter auf der Zielsprache vor und injizieren dann Instruktionsbefolgungsfähigkeiten durch Weight-Diff-Transfer von einem Instruktionsmodell. Ein solcher Ansatz verbessert die Codegenerierungsfähigkeiten in ressourcenlosen Umgebungen erheblich und ermöglicht es Unternehmen, kostengünstig ein spezialisiertes Instruktionsmodell bereitzustellen, ohne sich mit den Rechenkosten der Instruktionsfeinabstimmung befassen zu müssen.

English

Large Language Models (LLMs) have significantly advanced the automation of software engineering tasks. One prominent example is code generation, where an LLM produces code in a specified programming language based on a natural language description. Most research in this area has focused on high-resource languages, such as Python or Java, which benefit from abundant training data. A smaller body of work has explored low-resource languages, which are underrepresented in training corpora. In contrast, no-resource languages for which LLMs have seen virtually no training data remain largely unstudied. These languages often emerge in industry, where organizations develop proprietary or domain-specific languages unsupported by commercial tools like GitHub Copilot. This results in the need for companies to deploy their own in-house code recommenders. To investigate possible solutions in this context, we build and release three code generation benchmarks for no-resource languages, based on two recently proposed programming languages for which very little training data is available. Using these benchmarks, we experiment several solutions to teach LLMs about no-resource languages, including prompt-based techniques as well as pre-training and fine-tuning exploiting the little data available. While further pre-training gives the largest performance gains for no-resource languages, applying it directly to instruction-tuned models harms their ability to follow instructions. To address this, we start from a base model, further pre-training it on the target language, and then inject instruction-following capabilities via weight diff transfer from an instruction model. Such an approach significantly improves code generation capabilities in no-resource settings, allowing companies to cheaply deploy a specialized instruct model without dealing with the computational cost of instruction fine-tuning.