RobustFT: ノイズのある応答下での大規模言語モデルのための頑健な教師付きファインチューニング

RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

December 19, 2024
著者: Junyu Luo, Xiao Luo, Kaize Ding, Jingyang Yuan, Zhiping Xiao, Ming Zhang
cs.AI

要旨

監督されたファインチューニング(SFT)は、大規模言語モデル(LLMs)を特定の領域やタスクに適応させる上で重要な役割を果たします。しかしながら、実用的な応用において収集されたデータには避けられないノイズが含まれるため、モデルの性能に大きな影響を及ぼす下流タスクにおいて重要な課題が生じます。そのため、ノイズに強いSFTフレームワークが急務となっており、モデルの下流タスクにおける能力を向上させる必要があります。この課題に対処するため、我々はノイズ検出と再ラベリングを行うロバストなSFTフレームワーク(RobustFT)を導入します。ノイズの識別には、推論を強化したモデルを用いた複数の専門家による協力システムを採用し、優れたノイズ検出を実現します。ノイズ除去フェーズでは、最も関連性が高く確信度の高い知識を取り入れ、信頼性の高い注釈を生成するための慎重な評価を行うコンテキスト強化戦略を採用します。さらに、応答エントロピーに基づく効果的なデータ選択メカニズムを導入し、ファインチューニングに保持されるのは高品質なサンプルのみとなるようにします。5つのデータセットを対象とした幅広い実験により、RobustFTがノイズの多いシナリオにおいて優れたパフォーマンスを発揮することが示されました。
English
Supervised fine-tuning (SFT) plays a crucial role in adapting large language models (LLMs) to specific domains or tasks. However, as demonstrated by empirical experiments, the collected data inevitably contains noise in practical applications, which poses significant challenges to model performance on downstream tasks. Therefore, there is an urgent need for a noise-robust SFT framework to enhance model capabilities in downstream tasks. To address this challenge, we introduce a robust SFT framework (RobustFT) that performs noise detection and relabeling on downstream task data. For noise identification, our approach employs a multi-expert collaborative system with inference-enhanced models to achieve superior noise detection. In the denoising phase, we utilize a context-enhanced strategy, which incorporates the most relevant and confident knowledge followed by careful assessment to generate reliable annotations. Additionally, we introduce an effective data selection mechanism based on response entropy, ensuring only high-quality samples are retained for fine-tuning. Extensive experiments conducted on multiple LLMs across five datasets demonstrate RobustFT's exceptional performance in noisy scenarios.

Summary

AI-Generated Summary

PDF892December 24, 2024