Tuna : Réglage des instructions par rétroaction des grands modèles de langage
Tuna: Instruction Tuning using Feedback from Large Language Models
October 20, 2023
Auteurs: Haoran Li, Yiran Liu, Xingxing Zhang, Wei Lu, Furu Wei
cs.AI
Résumé
L'ajustement par instruction des grands modèles de langage (LLM) open-source comme LLaMA, en utilisant les sorties directes de LLM plus puissants tels qu'Instruct-GPT et GPT-4, s'est avéré être une méthode rentable pour aligner les comportements des modèles avec les préférences humaines. Cependant, le modèle ajusté par instruction n'a vu qu'une seule réponse par instruction, manquant ainsi la connaissance de réponses potentiellement meilleures. Dans cet article, nous proposons de fine-tuner un LLM ajusté par instruction en utilisant nos nouvelles approches de classement probabiliste et de classement contextuel pour augmenter la probabilité de générer de meilleures réponses. Le classement probabiliste permet au modèle ajusté par instruction d'hériter des classements relatifs des réponses de haute et de basse qualité du LLM enseignant. D'autre part, l'apprentissage avec classement contextuel permet au modèle d'affiner sa propre distribution de réponses en utilisant la capacité de compréhension contextuelle des LLM plus puissants. De plus, nous appliquons séquentiellement le classement probabiliste et le classement contextuel au LLM ajusté par instruction. Le modèle résultant, que nous appelons Tuna, améliore constamment les performances sur Super Natural Instructions (119 tâches de test), LMentry (25 tâches de test), Vicuna QA, et peut même obtenir de meilleurs résultats que plusieurs bases de référence fortes en apprentissage par renforcement. Notre code et nos données sont disponibles à l'adresse https://github.com/microsoft/LMOps.
English
Instruction tuning of open-source large language models (LLMs) like LLaMA,
using direct outputs from more powerful LLMs such as Instruct-GPT and GPT-4,
has proven to be a cost-effective way to align model behaviors with human
preferences. However, the instruction-tuned model has only seen one response
per instruction, lacking the knowledge of potentially better responses. In this
paper, we propose finetuning an instruction-tuned LLM using our novel
probabilistic ranking and contextual ranking approaches to
increase the likelihood of generating better responses. Probabilistic ranking
enables the instruction-tuned model to inherit the relative rankings of
high-quality and low-quality responses from the teacher LLM. On the other hand,
learning with contextual ranking allows the model to refine its own response
distribution using the contextual understanding ability of stronger LLMs.
Furthermore, we apply probabilistic ranking and contextual ranking sequentially
to the instruction-tuned LLM. The resulting model, which we call Tuna,
consistently improves the performance on Super Natural Instructions (119 test
tasks), LMentry (25 test tasks), Vicuna QA, and can even obtain better results
than several strong reinforcement learning baselines. Our code and data are
available at https://github.com/microsoft/LMOps.