RobustFT: Ajuste Fino Supervisado Robusto para Modelos de Lenguaje Grandes ante Respuestas Ruidosas

Resumen

El ajuste fino supervisado (SFT) desempeña un papel crucial en la adaptación de modelos de lenguaje grandes (LLMs) a dominios o tareas específicas. Sin embargo, como lo demuestran experimentos empíricos, los datos recopilados contienen inevitablemente ruido en aplicaciones prácticas, lo que plantea desafíos significativos para el rendimiento del modelo en tareas posteriores. Por lo tanto, existe una necesidad urgente de un marco de trabajo de SFT robusto al ruido para mejorar las capacidades del modelo en tareas posteriores. Para abordar este desafío, presentamos un marco de trabajo de SFT robusto (RobustFT) que realiza detección y etiquetado de ruido en los datos de tareas posteriores. Para la identificación de ruido, nuestro enfoque emplea un sistema colaborativo de múltiples expertos con modelos mejorados por inferencia para lograr una detección de ruido superior. En la fase de eliminación de ruido, utilizamos una estrategia mejorada por contexto, que incorpora el conocimiento más relevante y confiable seguido de una evaluación cuidadosa para generar anotaciones confiables. Además, introducimos un mecanismo efectivo de selección de datos basado en la entropía de respuesta, asegurando que solo se retengan muestras de alta calidad para el ajuste fino. Experimentos extensos realizados en múltiples LLMs en cinco conjuntos de datos demuestran el rendimiento excepcional de RobustFT en escenarios ruidosos.

English

Supervised fine-tuning (SFT) plays a crucial role in adapting large language models (LLMs) to specific domains or tasks. However, as demonstrated by empirical experiments, the collected data inevitably contains noise in practical applications, which poses significant challenges to model performance on downstream tasks. Therefore, there is an urgent need for a noise-robust SFT framework to enhance model capabilities in downstream tasks. To address this challenge, we introduce a robust SFT framework (RobustFT) that performs noise detection and relabeling on downstream task data. For noise identification, our approach employs a multi-expert collaborative system with inference-enhanced models to achieve superior noise detection. In the denoising phase, we utilize a context-enhanced strategy, which incorporates the most relevant and confident knowledge followed by careful assessment to generate reliable annotations. Additionally, we introduce an effective data selection mechanism based on response entropy, ensuring only high-quality samples are retained for fine-tuning. Extensive experiments conducted on multiple LLMs across five datasets demonstrate RobustFT's exceptional performance in noisy scenarios.

RobustFT: Ajuste Fino Supervisado Robusto para Modelos de Lenguaje Grandes ante Respuestas Ruidosas

RobustFT: Robust Supervised Fine-tuning for Large Language Models under Noisy Response

Resumen

Support