Tuna: Ottimizzazione delle Istruzioni mediante Feedback da Modelli Linguistici di Grandi Dimensioni
Tuna: Instruction Tuning using Feedback from Large Language Models
October 20, 2023
Autori: Haoran Li, Yiran Liu, Xingxing Zhang, Wei Lu, Furu Wei
cs.AI
Abstract
Il fine-tuning per istruzioni di modelli linguistici di grandi dimensioni (LLM) open-source come LLaMA, utilizzando output diretti di LLM più potenti come Instruct-GPT e GPT-4, si è dimostrato un metodo economico per allineare i comportamenti del modello alle preferenze umane. Tuttavia, il modello fine-tuned per istruzioni ha visto solo una risposta per ogni istruzione, mancando della conoscenza di potenziali risposte migliori. In questo articolo, proponiamo di effettuare il fine-tuning di un LLM già ottimizzato per istruzioni utilizzando i nostri nuovi approcci di ranking probabilistico e ranking contestuale, per aumentare la probabilità di generare risposte migliori. Il ranking probabilistico consente al modello fine-tuned per istruzioni di ereditare le classificazioni relative di risposte di alta e bassa qualità dal LLM insegnante. D'altra parte, l'apprendimento con ranking contestuale permette al modello di affinare la propria distribuzione di risposte utilizzando la capacità di comprensione contestuale di LLM più potenti. Inoltre, applichiamo sequenzialmente il ranking probabilistico e il ranking contestuale al LLM fine-tuned per istruzioni. Il modello risultante, che chiamiamo Tuna, migliora costantemente le prestazioni su Super Natural Instructions (119 task di test), LMentry (25 task di test), Vicuna QA, e può persino ottenere risultati migliori rispetto a diverse baseline di apprendimento per rinforzo. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/microsoft/LMOps.
English
Instruction tuning of open-source large language models (LLMs) like LLaMA,
using direct outputs from more powerful LLMs such as Instruct-GPT and GPT-4,
has proven to be a cost-effective way to align model behaviors with human
preferences. However, the instruction-tuned model has only seen one response
per instruction, lacking the knowledge of potentially better responses. In this
paper, we propose finetuning an instruction-tuned LLM using our novel
probabilistic ranking and contextual ranking approaches to
increase the likelihood of generating better responses. Probabilistic ranking
enables the instruction-tuned model to inherit the relative rankings of
high-quality and low-quality responses from the teacher LLM. On the other hand,
learning with contextual ranking allows the model to refine its own response
distribution using the contextual understanding ability of stronger LLMs.
Furthermore, we apply probabilistic ranking and contextual ranking sequentially
to the instruction-tuned LLM. The resulting model, which we call Tuna,
consistently improves the performance on Super Natural Instructions (119 test
tasks), LMentry (25 test tasks), Vicuna QA, and can even obtain better results
than several strong reinforcement learning baselines. Our code and data are
available at https://github.com/microsoft/LMOps.