RobustFT : Fine-tuning supervisé robuste pour les grands modèles de langage en présence de réponses bruitées

Résumé

Le réglage fin supervisé (RFS) joue un rôle crucial dans l'adaptation des grands modèles de langage (GML) à des domaines ou tâches spécifiques. Cependant, comme le démontrent des expériences empiriques, les données collectées contiennent inévitablement du bruit dans des applications pratiques, ce qui pose des défis importants pour les performances du modèle sur des tâches ultérieures. Par conséquent, il est urgent de mettre en place un cadre de RFS robuste au bruit pour améliorer les capacités du modèle dans les tâches ultérieures. Pour relever ce défi, nous introduisons un cadre de RFS robuste (RobustFT) qui effectue la détection et le reclassement du bruit sur les données des tâches ultérieures. Pour l'identification du bruit, notre approche utilise un système collaboratif multi-expert avec des modèles améliorés par l'inférence pour obtenir une détection de bruit supérieure. Dans la phase de débruitage, nous utilisons une stratégie améliorée par le contexte, qui intègre les connaissances les plus pertinentes et les plus fiables suivies d'une évaluation minutieuse pour générer des annotations fiables. De plus, nous introduisons un mécanisme efficace de sélection des données basé sur l'entropie de réponse, garantissant que seuls les échantillons de haute qualité sont conservés pour le réglage fin. Des expériences approfondies menées sur plusieurs GML à travers cinq ensembles de données démontrent les performances exceptionnelles de RobustFT dans des scénarios bruyants.

English

Supervised fine-tuning (SFT) plays a crucial role in adapting large language models (LLMs) to specific domains or tasks. However, as demonstrated by empirical experiments, the collected data inevitably contains noise in practical applications, which poses significant challenges to model performance on downstream tasks. Therefore, there is an urgent need for a noise-robust SFT framework to enhance model capabilities in downstream tasks. To address this challenge, we introduce a robust SFT framework (RobustFT) that performs noise detection and relabeling on downstream task data. For noise identification, our approach employs a multi-expert collaborative system with inference-enhanced models to achieve superior noise detection. In the denoising phase, we utilize a context-enhanced strategy, which incorporates the most relevant and confident knowledge followed by careful assessment to generate reliable annotations. Additionally, we introduce an effective data selection mechanism based on response entropy, ensuring only high-quality samples are retained for fine-tuning. Extensive experiments conducted on multiple LLMs across five datasets demonstrate RobustFT's exceptional performance in noisy scenarios.

RobustFT : Fine-tuning supervisé robuste pour les grands modèles de langage en présence de réponses bruitées

RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

Résumé

Support