ChatPaper.aiChatPaper

LLM(Large Language Models)のコーディング性能はどのようですか?高品質なデータによるコード指示調整の強化

How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data

September 5, 2024
著者: Yejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu
cs.AI

要旨

最近、より良いコード命令調整データの構築方法について研究することに関心が高まっています。しかし、これらのデータセットでトレーニングされたコードモデルはHumanEvalで高いパフォーマンスを示す一方、LiveCodeBenchなどの他のベンチマークでは性能が低下します。さらなる調査の結果、多くのデータセットが深刻なデータ漏洩に苦しんでいることがわかりました。漏洩データのほとんどをクリーニングした後、一部のよく知られた高品質データセットでも性能が低下します。この発見は新たな課題を明らかにしました:どのデータセットが本当に高品質のコード命令データとして適格かを特定することです。これに対処するために、良いサンプルを選択するための効率的なコードデータの剪定戦略を提案します。当社のアプローチは、命令の複雑さ、応答品質、および命令の多様性の3つの次元に基づいています。選択したデータに基づいて、LLaMA3からファインチューニングされたモデルファミリーであるXCoderを提案します。当社の実験では、XCoderがより少ないトレーニングデータを使用して新しい最先端のパフォーマンスを達成することを示し、当社のデータ戦略の効果を検証します。さらに、データ構成について包括的な分析を行い、既存のコードデータセットが構築方法に応じて異なる特性を持つことを発見し、将来のコードLLMに新たな示唆を提供します。当社のモデルとデータセットはhttps://github.com/banksy23/XCoder で公開されています。
English
Recently, there has been a growing interest in studying how to construct better code instruction tuning data. However, we observe Code models trained with these datasets exhibit high performance on HumanEval but perform worse on other benchmarks such as LiveCodeBench. Upon further investigation, we find that many datasets suffer from severe data leakage. After cleaning up most of the leaked data, some well-known high-quality datasets perform poorly. This discovery reveals a new challenge: identifying which dataset genuinely qualify as high-quality code instruction data. To address this, we propose an efficient code data pruning strategy for selecting good samples. Our approach is based on three dimensions: instruction complexity, response quality, and instruction diversity. Based on our selected data, we present XCoder, a family of models finetuned from LLaMA3. Our experiments show XCoder achieves new state-of-the-art performance using fewer training data, which verify the effectiveness of our data strategy. Moreover, we perform a comprehensive analysis on the data composition and find existing code datasets have different characteristics according to their construction methods, which provide new insights for future code LLMs. Our models and dataset are released in https://github.com/banksy23/XCoder

Summary

AI-Generated Summary

PDF366November 16, 2024