ChatPaper.aiChatPaper

SoTaNa : L'assistant open-source pour le développement logiciel

SoTaNa: The Open-Source Software Development Assistant

August 25, 2023
Auteurs: Ensheng Shi, Fengji Zhang, Yanlin Wang, Bei Chen, Lun Du, Hongyu Zhang, Shi Han, Dongmei Zhang, Hongbin Sun
cs.AI

Résumé

Le développement logiciel joue un rôle crucial dans la stimulation de l'innovation et de l'efficacité au sein des sociétés modernes. Pour répondre aux exigences de ce domaine dynamique, il existe un besoin croissant d'un assistant de développement logiciel efficace. Cependant, les modèles de langage de grande envergure existants, représentés par ChatGPT, souffrent d'une accessibilité limitée, notamment en ce qui concerne les données d'entraînement et les poids des modèles. Bien que d'autres modèles open source de grande envergure comme LLaMA aient montré des résultats prometteurs, ils peinent encore à comprendre l'intention humaine. Dans cet article, nous présentons SoTaNa, un assistant de développement logiciel open source. SoTaNa utilise ChatGPT pour générer des données de haute qualité basées sur des instructions dans le domaine de l'ingénierie logicielle et emploie une approche de fine-tuning efficace en termes de paramètres pour améliorer le modèle de base open source, LLaMA. Nous évaluons l'efficacité de SoTaNa à répondre aux questions de Stack Overflow et démontrons ses capacités. De plus, nous discutons de ses aptitudes en matière de résumé et de génération de code, ainsi que de l'impact de la variation du volume de données générées sur la performance du modèle. Notamment, SoTaNa peut fonctionner sur un seul GPU, le rendant accessible à un plus large éventail de chercheurs. Notre code, les poids des modèles et les données sont publics à l'adresse suivante : https://github.com/DeepSoftwareAnalytics/SoTaNa.
English
Software development plays a crucial role in driving innovation and efficiency across modern societies. To meet the demands of this dynamic field, there is a growing need for an effective software development assistant. However, existing large language models represented by ChatGPT suffer from limited accessibility, including training data and model weights. Although other large open-source models like LLaMA have shown promise, they still struggle with understanding human intent. In this paper, we present SoTaNa, an open-source software development assistant. SoTaNa utilizes ChatGPT to generate high-quality instruction-based data for the domain of software engineering and employs a parameter-efficient fine-tuning approach to enhance the open-source foundation model, LLaMA. We evaluate the effectiveness of in answering Stack Overflow questions and demonstrate its capabilities. Additionally, we discuss its capabilities in code summarization and generation, as well as the impact of varying the volume of generated data on model performance. Notably, SoTaNa can run on a single GPU, making it accessible to a broader range of researchers. Our code, model weights, and data are public at https://github.com/DeepSoftwareAnalytics/SoTaNa.
PDF120December 15, 2024