RobustFT: Надёжное обучение с учителем с тонкой настройкой для больших языковых моделей в условиях шумного отклика
RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response
December 19, 2024
Авторы: Junyu Luo, Xiao Luo, Kaize Ding, Jingyang Yuan, Zhiping Xiao, Ming Zhang
cs.AI
Аннотация
Надзорное дообучение (SFT) играет ключевую роль в адаптации крупных языковых моделей (LLM) к конкретным областям или задачам. Однако, как показывают эмпирические эксперименты, собранные данные неизбежно содержат шум в практических приложениях, что создает значительные вызовы для производительности модели на последующих задачах. Поэтому существует настоятельная необходимость в шумоустойчивой SFT-структуре для улучшения возможностей модели на последующих задачах. Для решения этой проблемы мы представляем надежную SFT-структуру (RobustFT), которая выполняет обнаружение шума и переоценку на данных последующей задачи. Для идентификации шума наш подход использует многопользовательскую коллаборативную систему с моделями, улучшенными выводом, для достижения превосходного обнаружения шума. В фазе очистки от шума мы используем стратегию с учетом контекста, которая включает наиболее релевантные и уверенные знания, за которыми следует тщательная оценка для создания надежных аннотаций. Кроме того, мы представляем эффективный механизм выбора данных на основе энтропии ответа, обеспечивая сохранение только высококачественных образцов для дообучения. Обширные эксперименты, проведенные на нескольких LLM на пяти наборах данных, демонстрируют исключительную производительность RobustFT в шумных сценариях.
English
Supervised fine-tuning (SFT) plays a crucial role in adapting large language
models (LLMs) to specific domains or tasks. However, as demonstrated by
empirical experiments, the collected data inevitably contains noise in
practical applications, which poses significant challenges to model performance
on downstream tasks. Therefore, there is an urgent need for a noise-robust SFT
framework to enhance model capabilities in downstream tasks. To address this
challenge, we introduce a robust SFT framework (RobustFT) that performs noise
detection and relabeling on downstream task data. For noise identification, our
approach employs a multi-expert collaborative system with inference-enhanced
models to achieve superior noise detection. In the denoising phase, we utilize
a context-enhanced strategy, which incorporates the most relevant and confident
knowledge followed by careful assessment to generate reliable annotations.
Additionally, we introduce an effective data selection mechanism based on
response entropy, ensuring only high-quality samples are retained for
fine-tuning. Extensive experiments conducted on multiple LLMs across five
datasets demonstrate RobustFT's exceptional performance in noisy scenarios.Summary
AI-Generated Summary