Tuna: Ottimizzazione delle Istruzioni mediante Feedback da Modelli Linguistici di Grandi Dimensioni

Abstract

Il fine-tuning per istruzioni di modelli linguistici di grandi dimensioni (LLM) open-source come LLaMA, utilizzando output diretti di LLM più potenti come Instruct-GPT e GPT-4, si è dimostrato un metodo economico per allineare i comportamenti del modello alle preferenze umane. Tuttavia, il modello fine-tuned per istruzioni ha visto solo una risposta per ogni istruzione, mancando della conoscenza di potenziali risposte migliori. In questo articolo, proponiamo di effettuare il fine-tuning di un LLM già ottimizzato per istruzioni utilizzando i nostri nuovi approcci di ranking probabilistico e ranking contestuale, per aumentare la probabilità di generare risposte migliori. Il ranking probabilistico consente al modello fine-tuned per istruzioni di ereditare le classificazioni relative di risposte di alta e bassa qualità dal LLM insegnante. D'altra parte, l'apprendimento con ranking contestuale permette al modello di affinare la propria distribuzione di risposte utilizzando la capacità di comprensione contestuale di LLM più potenti. Inoltre, applichiamo sequenzialmente il ranking probabilistico e il ranking contestuale al LLM fine-tuned per istruzioni. Il modello risultante, che chiamiamo Tuna, migliora costantemente le prestazioni su Super Natural Instructions (119 task di test), LMentry (25 task di test), Vicuna QA, e può persino ottenere risultati migliori rispetto a diverse baseline di apprendimento per rinforzo. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/microsoft/LMOps.

English

Instruction tuning of open-source large language models (LLMs) like LLaMA, using direct outputs from more powerful LLMs such as Instruct-GPT and GPT-4, has proven to be a cost-effective way to align model behaviors with human preferences. However, the instruction-tuned model has only seen one response per instruction, lacking the knowledge of potentially better responses. In this paper, we propose finetuning an instruction-tuned LLM using our novel probabilistic ranking and contextual ranking approaches to increase the likelihood of generating better responses. Probabilistic ranking enables the instruction-tuned model to inherit the relative rankings of high-quality and low-quality responses from the teacher LLM. On the other hand, learning with contextual ranking allows the model to refine its own response distribution using the contextual understanding ability of stronger LLMs. Furthermore, we apply probabilistic ranking and contextual ranking sequentially to the instruction-tuned LLM. The resulting model, which we call Tuna, consistently improves the performance on Super Natural Instructions (119 test tasks), LMentry (25 test tasks), Vicuna QA, and can even obtain better results than several strong reinforcement learning baselines. Our code and data are available at https://github.com/microsoft/LMOps.

Tuna: Ottimizzazione delle Istruzioni mediante Feedback da Modelli Linguistici di Grandi Dimensioni

Tuna: Instruction Tuning using Feedback from Large Language Models

Abstract

Support