NILE : Alignement de la Cohérence Interne dans les Grands Modèles de Langage

papers.abstract

Dans le cadre de l'amélioration cruciale de l'alignement des LLM avec les intentions humaines, le Fine-Tuning des Instructions (IFT) exige une qualité élevée des ensembles de données. Cependant, les ensembles de données IFT existants contiennent souvent des connaissances qui sont incohérentes avec les connaissances internes des LLM apprises lors de la phase de pré-entraînement, ce qui peut grandement affecter l'efficacité de l'IFT. Pour résoudre ce problème, nous introduisons le cadre NILE (iNternal consIstency aLignmEnt), visant à optimiser les ensembles de données IFT pour libérer davantage les capacités des LLM. NILE fonctionne en sollicitant les connaissances internes du LLM pré-entraîné cible correspondant aux données d'instructions. Les connaissances internes sont exploitées pour réviser les réponses dans les ensembles de données IFT. De plus, nous proposons une nouvelle méthode de Filtrage de la Consistance Interne (FCI) pour filtrer les échantillons d'entraînement, garantissant une haute cohérence avec les connaissances internes du LLM. Nos expériences démontrent que les ensembles de données IFT alignés avec NILE améliorent nettement les performances des LLM sur plusieurs ensembles de données d'évaluation des capacités des LLM, atteignant jusqu'à 66,6 % de gain sur Arena-Hard et 68,5 % sur Alpaca-Eval V2. Une analyse approfondie confirme que chaque composant du cadre NILE contribue à ces améliorations de performances substantielles, et fournit des preuves convaincantes que la cohérence des ensembles de données avec les connaissances internes pré-entraînées est essentielle pour maximiser le potentiel des LLM.

English

As a crucial step to enhance LLMs alignment with human intentions, Instruction Fine-Tuning (IFT) has a high demand on dataset quality. However, existing IFT datasets often contain knowledge that is inconsistent with LLMs' internal knowledge learned from the pre-training phase, which can greatly affect the efficacy of IFT. To address this issue, we introduce NILE (iNternal consIstency aLignmEnt) framework, aimed at optimizing IFT datasets to unlock LLMs' capability further. NILE operates by eliciting target pre-trained LLM's internal knowledge corresponding to instruction data. The internal knowledge is leveraged to revise the answer in IFT datasets. Additionally, we propose a novel Internal Consistency Filtering (ICF) method to filter training samples, ensuring its high consistency with LLM's internal knowledge. Our experiments demonstrate that NILE-aligned IFT datasets sharply boost LLM performance across multiple LLM ability evaluation datasets, achieving up to 66.6% gain on Arena-Hard and 68.5% on Alpaca-Eval V2. Further analysis confirms that each component of the NILE}framework contributes to these substantial performance improvements, and provides compelling evidence that dataset consistency with pre-trained internal knowledge is pivotal for maximizing LLM potential.

NILE : Alignement de la Cohérence Interne dans les Grands Modèles de Langage

NILE: Internal Consistency Alignment in Large Language Models

papers.abstract

Support