NILE : Alignement de la Cohérence Interne dans les Grands Modèles de Langage
NILE: Internal Consistency Alignment in Large Language Models
December 21, 2024
Auteurs: Minda Hu, Qiyuan Zhang, Yufei Wang, Bowei He, Hongru Wang, Jingyan Zhou, Liangyou Li, Yasheng Wang, Chen Ma, Irwin King
cs.AI
Résumé
Dans le cadre de l'amélioration cruciale de l'alignement des LLM avec les intentions humaines, le Fine-Tuning des Instructions (IFT) exige une qualité élevée des ensembles de données. Cependant, les ensembles de données IFT existants contiennent souvent des connaissances qui sont incohérentes avec les connaissances internes des LLM apprises lors de la phase de pré-entraînement, ce qui peut grandement affecter l'efficacité de l'IFT. Pour résoudre ce problème, nous introduisons le cadre NILE (iNternal consIstency aLignmEnt), visant à optimiser les ensembles de données IFT pour libérer davantage les capacités des LLM. NILE fonctionne en sollicitant les connaissances internes du LLM pré-entraîné cible correspondant aux données d'instructions. Les connaissances internes sont exploitées pour réviser les réponses dans les ensembles de données IFT. De plus, nous proposons une nouvelle méthode de Filtrage de la Consistance Interne (FCI) pour filtrer les échantillons d'entraînement, garantissant une haute cohérence avec les connaissances internes du LLM. Nos expériences démontrent que les ensembles de données IFT alignés avec NILE améliorent nettement les performances des LLM sur plusieurs ensembles de données d'évaluation des capacités des LLM, atteignant jusqu'à 66,6 % de gain sur Arena-Hard et 68,5 % sur Alpaca-Eval V2. Une analyse approfondie confirme que chaque composant du cadre NILE contribue à ces améliorations de performances substantielles, et fournit des preuves convaincantes que la cohérence des ensembles de données avec les connaissances internes pré-entraînées est essentielle pour maximiser le potentiel des LLM.
English
As a crucial step to enhance LLMs alignment with human intentions,
Instruction Fine-Tuning (IFT) has a high demand on dataset quality. However,
existing IFT datasets often contain knowledge that is inconsistent with LLMs'
internal knowledge learned from the pre-training phase, which can greatly
affect the efficacy of IFT. To address this issue, we introduce NILE (iNternal
consIstency aLignmEnt) framework, aimed at optimizing IFT datasets to unlock
LLMs' capability further. NILE operates by eliciting target pre-trained LLM's
internal knowledge corresponding to instruction data. The internal knowledge is
leveraged to revise the answer in IFT datasets. Additionally, we propose a
novel Internal Consistency Filtering (ICF) method to filter training samples,
ensuring its high consistency with LLM's internal knowledge. Our experiments
demonstrate that NILE-aligned IFT datasets sharply boost LLM performance across
multiple LLM ability evaluation datasets, achieving up to 66.6% gain on
Arena-Hard and 68.5% on Alpaca-Eval V2. Further analysis confirms that each
component of the NILE}framework contributes to these substantial performance
improvements, and provides compelling evidence that dataset consistency with
pre-trained internal knowledge is pivotal for maximizing LLM potential.Summary
AI-Generated Summary