Mejorando la Generación de Código para Idiomas de Bajos Recursos: No Hay una Solución Mágica

Resumen

La llegada de los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) ha avanzado significativamente el campo de la generación automatizada de código. Los LLMs dependen de conjuntos de datos extensos y diversos para aprender la sintaxis, semántica y patrones de uso de los lenguajes de programación. Para los lenguajes con recursos limitados (es decir, lenguajes de programación de nicho caracterizados por la escasez de datos de entrenamiento), la disponibilidad limitada de dichos datos dificulta la capacidad de generalización de los modelos, lo que resulta en un rendimiento de generación de código inferior en comparación con los lenguajes de alto recurso. Por esta razón, existe una búsqueda de técnicas capaces de cerrar esta brecha de rendimiento. Presentamos un estudio empírico que investiga la efectividad de varios enfoques para mejorar el rendimiento de los LLMs en lenguajes con recursos limitados, a saber: (i) un ajuste fino clásico, que sin embargo está limitado en tamaño por la escasez de datos de entrenamiento; (ii) tres variantes de aprendizaje en contexto, con indicaciones diseñadas para proporcionar al LLM información adicional sobre el lenguaje con recursos limitados (por ejemplo, ejemplos de pocos disparos que muestran características del lenguaje objetivo); y (iii) un objetivo de pre-entrenamiento que enseña al modelo a traducir entre lenguajes de alto y bajo recurso. El contexto de nuestro estudio son dos lenguajes con recursos limitados (R y Racket) y seis LLMs con arquitecturas y tamaños diferentes. Nuestros hallazgos revelan que un ajuste fino suele ser la mejor opción para LLMs más pequeños, posiblemente debido a que incluso un conjunto de datos pequeño es suficiente para entrenar su número limitado de parámetros. Con el aumento en el tamaño de los modelos, el aprendizaje en contexto se vuelve cada vez más efectivo, representando una apuesta segura y económica (es decir, siempre ayuda, pero con magnitudes diferentes). Por otro lado, los LLMs muy grandes pueden deteriorar su rendimiento en lenguajes con recursos limitados cuando se realiza un ajuste fino, posiblemente debido a la falta de suficientes datos necesarios para actualizar efectivamente sus pesos.

English

The advent of Large Language Models (LLMs) has significantly advanced the field of automated code generation. LLMs rely on large and diverse datasets to learn syntax, semantics, and usage patterns of programming languages. For low-resource languages (i.e., niche programming languages characterized by the scarcity of training data), the limited availability of such data hampers the models' ability to generalize effectively, resulting in poorer code generation performance as compared to high-resource languages. For this reason, there is a quest for techniques able to close this performance gap. We present an empirical study investigating the effectiveness of several approaches for boosting LLMs' performance on low-resource languages, namely: (i) a classic fine-tuning, which is however capped in size by the scarcity of training data; (ii) three variants of in-context learning, with prompts crafted to provide the LLM with additional information about the low-resource language (e.g., few-shot examples showcasing features of the targeted language); and (iii) a pre-training objective teaching the model how to translate between high- and low-resource languages. The context of our study are two low-resource languages (R and Racket) and six LLMs having different architectures and sizes. Our findings reveal that a fine-tuning is usually the best choice for smaller LLMs, possibly due to the fact that even a small dataset is sufficient to train their limited number of parameters. With the increase in size of the models, in-context learning becomes more and more effective, representing a safe and cheap bet (i.e., it always helps, but with different magnitudes). Differently, very large LLMs may deteriorate their performance on low-resource languages when fine-tuning is performed, possibly due to the lack of enough data needed to effectively update their weights.

Mejorando la Generación de Código para Idiomas de Bajos Recursos: No Hay una Solución Mágica

Enhancing Code Generation for Low-Resource Languages: No Silver Bullet

Resumen

Support