Ajuste Eficiente de Parâmetros de Modelos de Linguagem Grandes para Geração de Testes Unitários: Um Estudo Empírico

Resumo

O surgimento de grandes modelos de linguagem (LLMs) como o GitHub Copilot tem aumentado significativamente a produtividade dos programadores, especialmente na geração de código. No entanto, esses modelos frequentemente enfrentam dificuldades em tarefas do mundo real sem ajustes finos. À medida que os LLMs se tornam maiores e mais eficientes, o ajuste fino para tarefas especializadas se torna cada vez mais caro. Métodos de ajuste fino eficientes em parâmetros (PEFT), que ajustam apenas um subconjunto dos parâmetros do modelo, oferecem uma solução promissora ao reduzir os custos computacionais do ajuste dos LLMs mantendo seu desempenho. Estudos existentes têm explorado o uso de PEFT e LLMs em várias tarefas relacionadas a código e descobriram que a eficácia das técnicas de PEFT depende da tarefa. A aplicação de técnicas de PEFT na geração de testes unitários ainda é pouco explorada. O estado-da-arte se limita ao uso de LLMs com ajuste fino completo para gerar testes unitários. Este artigo investiga tanto o ajuste fino completo quanto vários métodos de PEFT, incluindo LoRA, (IA)^3 e ajuste de prompt, em diferentes arquiteturas e tamanhos de modelos. Utilizamos conjuntos de dados de referência bem estabelecidos para avaliar sua eficácia na geração de testes unitários. Nossas descobertas mostram que os métodos de PEFT podem fornecer desempenho comparável ao ajuste fino completo para a geração de testes unitários, tornando o ajuste fino especializado mais acessível e econômico. Notavelmente, o ajuste de prompt é o mais eficaz em termos de custo e utilização de recursos, enquanto abordagens LoRA se aproximam da eficácia do ajuste fino completo em vários casos.

English

The advent of large language models (LLMs) like GitHub Copilot has significantly enhanced programmers' productivity, particularly in code generation. However, these models often struggle with real-world tasks without fine-tuning. As LLMs grow larger and more performant, fine-tuning for specialized tasks becomes increasingly expensive. Parameter-efficient fine-tuning (PEFT) methods, which fine-tune only a subset of model parameters, offer a promising solution by reducing the computational costs of tuning LLMs while maintaining their performance. Existing studies have explored using PEFT and LLMs for various code-related tasks and found that the effectiveness of PEFT techniques is task-dependent. The application of PEFT techniques in unit test generation remains underexplored. The state-of-the-art is limited to using LLMs with full fine-tuning to generate unit tests. This paper investigates both full fine-tuning and various PEFT methods, including LoRA, (IA)^3, and prompt tuning, across different model architectures and sizes. We use well-established benchmark datasets to evaluate their effectiveness in unit test generation. Our findings show that PEFT methods can deliver performance comparable to full fine-tuning for unit test generation, making specialized fine-tuning more accessible and cost-effective. Notably, prompt tuning is the most effective in terms of cost and resource utilization, while LoRA approaches the effectiveness of full fine-tuning in several cases.

Ajuste Eficiente de Parâmetros de Modelos de Linguagem Grandes para Geração de Testes Unitários: Um Estudo Empírico

Parameter-Efficient Fine-Tuning of Large Language Models for Unit Test Generation: An Empirical Study

Resumo

Support