ORBIT : Préserver les compétences linguistiques fondamentales en GenRetrieval via un fusionnement régulé par l'origine

Résumé

Malgré les avancées rapides dans le développement des modèles de langage de grande taille (LLM), leur ajustement fin pour des tâches spécifiques entraîne souvent un oubli catastrophique de leurs capacités générales de raisonnement linguistique. Ce travail étudie et aborde ce défi dans le contexte de la tâche de Récupération Générative (GenRetrieval). Lors de l'ajustement fin de GenRetrieval, nous constatons que cet oubli se produit rapidement et est corrélé à la distance entre les paramètres du modèle ajusté et ceux du modèle original. Compte tenu de ces observations, nous proposons ORBIT, une nouvelle approche qui suit activement la distance entre les poids du modèle ajusté et ceux du modèle initial, et utilise une stratégie de moyenne des poids pour contraindre la dérive du modèle lors de l'ajustement fin de GenRetrieval lorsque cette distance inter-modèle dépasse un seuil maximal. Nos résultats montrent qu'ORBIT conserve des performances substantielles en matière de texte et de récupération en surpassant à la fois les bases de référence courantes d'apprentissage continu et les méthodes de régularisation connexes qui utilisent également la moyenne des poids.

English

Despite the rapid advancements in large language model (LLM) development, fine-tuning them for specific tasks often results in the catastrophic forgetting of their general, language-based reasoning abilities. This work investigates and addresses this challenge in the context of the Generative Retrieval (GenRetrieval) task. During GenRetrieval fine-tuning, we find this forgetting occurs rapidly and correlates with the distance between the fine-tuned and original model parameters. Given these observations, we propose ORBIT, a novel approach that actively tracks the distance between fine-tuned and initial model weights, and uses a weight averaging strategy to constrain model drift during GenRetrieval fine-tuning when this inter-model distance exceeds a maximum threshold. Our results show that ORBIT retains substantial text and retrieval performance by outperforming both common continual learning baselines and related regularization methods that also employ weight averaging.

ORBIT : Préserver les compétences linguistiques fondamentales en GenRetrieval via un fusionnement régulé par l'origine

ORBIT: Preserving Foundational Language Capabilities in GenRetrieval via Origin-Regulated Merging

Résumé

Support