ChatPaper.aiChatPaper

I linguaggi di programmazione possono potenziarsi reciprocamente tramite l'Instruction Tuning?

Can Programming Languages Boost Each Other via Instruction Tuning?

August 31, 2023
Autori: Daoguang Zan, Ailun Yu, Bo Shen, Jiaxin Zhang, Taihong Chen, Bing Geng, Bei Chen, Jichuan Ji, Yafen Yao, Yongji Wang, Qianxiang Wang
cs.AI

Abstract

Quando i programmatori umani hanno padroneggiato un linguaggio di programmazione, diventa più semplice per loro apprendere un nuovo linguaggio di programmazione. In questo rapporto, ci concentriamo sull'esplorare se i linguaggi di programmazione possano potenziarsi reciprocamente durante la fase di fine-tuning delle istruzioni nei modelli linguistici di grandi dimensioni per il codice. Abbiamo condotto esperimenti estesi su 8 linguaggi di programmazione popolari (Python, JavaScript, TypeScript, C, C++, Java, Go, HTML) su StarCoder. I risultati dimostrano che i linguaggi di programmazione possono migliorarsi significativamente a vicenda. Ad esempio, CodeM-Python 15B addestrato su Python è in grado di aumentare Java di un assoluto 17,95% pass@1 su HumanEval-X. Ancora più sorprendentemente, abbiamo scoperto che CodeM-HTML 7B addestrato sul corpus HTML può migliorare Java di un assoluto 15,24% pass@1. I nostri dati di addestramento sono rilasciati su https://github.com/NL2Code/CodeM.
English
When human programmers have mastered a programming language, it would be easier when they learn a new programming language. In this report, we focus on exploring whether programming languages can boost each other during the instruction fine-tuning phase of code large language models. We conduct extensive experiments of 8 popular programming languages (Python, JavaScript, TypeScript, C, C++, Java, Go, HTML) on StarCoder. Results demonstrate that programming languages can significantly improve each other. For example, CodeM-Python 15B trained on Python is able to increase Java by an absolute 17.95% pass@1 on HumanEval-X. More surprisingly, we found that CodeM-HTML 7B trained on the HTML corpus can improve Java by an absolute 15.24% pass@1. Our training data is released at https://github.com/NL2Code/CodeM.
PDF120March 10, 2026