LLM(Large Language Models)のコーディング性能はどのようですか?高品質なデータによるコード指示調整の強化How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with
High-Quality Data
最近、より良いコード命令調整データの構築方法について研究することに関心が高まっています。しかし、これらのデータセットでトレーニングされたコードモデルはHumanEvalで高いパフォーマンスを示す一方、LiveCodeBenchなどの他のベンチマークでは性能が低下します。さらなる調査の結果、多くのデータセットが深刻なデータ漏洩に苦しんでいることがわかりました。漏洩データのほとんどをクリーニングした後、一部のよく知られた高品質データセットでも性能が低下します。この発見は新たな課題を明らかにしました:どのデータセットが本当に高品質のコード命令データとして適格かを特定することです。これに対処するために、良いサンプルを選択するための効率的なコードデータの剪定戦略を提案します。当社のアプローチは、命令の複雑さ、応答品質、および命令の多様性の3つの次元に基づいています。選択したデータに基づいて、LLaMA3からファインチューニングされたモデルファミリーであるXCoderを提案します。当社の実験では、XCoderがより少ないトレーニングデータを使用して新しい最先端のパフォーマンスを達成することを示し、当社のデータ戦略の効果を検証します。さらに、データ構成について包括的な分析を行い、既存のコードデータセットが構築方法に応じて異なる特性を持つことを発見し、将来のコードLLMに新たな示唆を提供します。当社のモデルとデータセットはhttps://github.com/banksy23/XCoder で公開されています。