Tuna : Réglage des instructions par rétroaction des grands modèles de langage

papers.abstract

L'ajustement par instruction des grands modèles de langage (LLM) open-source comme LLaMA, en utilisant les sorties directes de LLM plus puissants tels qu'Instruct-GPT et GPT-4, s'est avéré être une méthode rentable pour aligner les comportements des modèles avec les préférences humaines. Cependant, le modèle ajusté par instruction n'a vu qu'une seule réponse par instruction, manquant ainsi la connaissance de réponses potentiellement meilleures. Dans cet article, nous proposons de fine-tuner un LLM ajusté par instruction en utilisant nos nouvelles approches de classement probabiliste et de classement contextuel pour augmenter la probabilité de générer de meilleures réponses. Le classement probabiliste permet au modèle ajusté par instruction d'hériter des classements relatifs des réponses de haute et de basse qualité du LLM enseignant. D'autre part, l'apprentissage avec classement contextuel permet au modèle d'affiner sa propre distribution de réponses en utilisant la capacité de compréhension contextuelle des LLM plus puissants. De plus, nous appliquons séquentiellement le classement probabiliste et le classement contextuel au LLM ajusté par instruction. Le modèle résultant, que nous appelons Tuna, améliore constamment les performances sur Super Natural Instructions (119 tâches de test), LMentry (25 tâches de test), Vicuna QA, et peut même obtenir de meilleurs résultats que plusieurs bases de référence fortes en apprentissage par renforcement. Notre code et nos données sont disponibles à l'adresse https://github.com/microsoft/LMOps.

English

Instruction tuning of open-source large language models (LLMs) like LLaMA, using direct outputs from more powerful LLMs such as Instruct-GPT and GPT-4, has proven to be a cost-effective way to align model behaviors with human preferences. However, the instruction-tuned model has only seen one response per instruction, lacking the knowledge of potentially better responses. In this paper, we propose finetuning an instruction-tuned LLM using our novel probabilistic ranking and contextual ranking approaches to increase the likelihood of generating better responses. Probabilistic ranking enables the instruction-tuned model to inherit the relative rankings of high-quality and low-quality responses from the teacher LLM. On the other hand, learning with contextual ranking allows the model to refine its own response distribution using the contextual understanding ability of stronger LLMs. Furthermore, we apply probabilistic ranking and contextual ranking sequentially to the instruction-tuned LLM. The resulting model, which we call Tuna, consistently improves the performance on Super Natural Instructions (119 test tasks), LMentry (25 test tasks), Vicuna QA, and can even obtain better results than several strong reinforcement learning baselines. Our code and data are available at https://github.com/microsoft/LMOps.

Tuna : Réglage des instructions par rétroaction des grands modèles de langage

Tuna: Instruction Tuning using Feedback from Large Language Models

papers.abstract

Support