ChatPaper.aiChatPaper

Quanto Possono Arrivare Lontano i Cammelli? Esplorando lo Stato del Fine-Tuning su Istruzioni con Risorse Aperte

How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources

June 7, 2023
Autori: Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Raghavi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi
cs.AI

Abstract

In questo lavoro esploriamo i recenti progressi nel fine-tuning di modelli linguistici su un'ampia gamma di dataset aperti per il seguimento di istruzioni. Nonostante le recenti affermazioni secondo cui i modelli aperti possono competere con i modelli proprietari all'avanguardia, queste affermazioni sono spesso accompagnate da valutazioni limitate, rendendo difficile confrontare i modelli in modo completo e determinare l'utilità delle varie risorse. Forniamo un ampio set di modelli fine-tuned su istruzioni, con dimensioni che vanno da 6,7B a 65B parametri, addestrati su 12 dataset di istruzioni che spaziano da quelli curati manualmente (ad esempio, OpenAssistant) a quelli sintetici e distillati (ad esempio, Alpaca), e li valutiamo sistematicamente in termini di conoscenza fattuale, ragionamento, multilinguità, capacità di programmazione e seguimento di istruzioni aperte attraverso una raccolta di metriche automatiche, basate su modelli e basate su valutazioni umane. Introduciamo inoltre T\"ulu, la nostra suite di modelli fine-tuned su istruzioni con le migliori prestazioni, ottimizzata su una combinazione di risorse aperte di alta qualità. I nostri esperimenti dimostrano che diversi dataset di fine-tuning su istruzioni possono scoprire o potenziare competenze specifiche, mentre nessun singolo dataset (o combinazione) fornisce le migliori prestazioni in tutte le valutazioni. Interessante notare che le valutazioni basate sulle preferenze del modello e degli umani non riflettono le differenze nelle capacità dei modelli evidenziate dalle valutazioni basate su benchmark, suggerendo la necessità del tipo di valutazione sistematica condotta in questo lavoro. Le nostre valutazioni mostrano che il miglior modello in una determinata valutazione raggiunge in media l'83% delle prestazioni di ChatGPT e il 68% di quelle di GPT-4, suggerendo che sono necessari ulteriori investimenti nella costruzione di modelli di base e dati di fine-tuning su istruzioni migliori per colmare il divario. Rilasciamo i nostri modelli fine-tuned su istruzioni, incluso un T\"ulu completamente fine-tuned da 65B, insieme al nostro codice, dati e framework di valutazione all'indirizzo https://github.com/allenai/open-instruct per facilitare la ricerca futura.
English
In this work we explore recent advances in instruction-tuning language models on a range of open instruction-following datasets. Despite recent claims that open models can be on par with state-of-the-art proprietary models, these claims are often accompanied by limited evaluation, making it difficult to compare models across the board and determine the utility of various resources. We provide a large set of instruction-tuned models from 6.7B to 65B parameters in size, trained on 12 instruction datasets ranging from manually curated (e.g., OpenAssistant) to synthetic and distilled (e.g., Alpaca) and systematically evaluate them on their factual knowledge, reasoning, multilinguality, coding, and open-ended instruction following abilities through a collection of automatic, model-based, and human-based metrics. We further introduce T\"ulu, our best performing instruction-tuned model suite finetuned on a combination of high-quality open resources. Our experiments show that different instruction-tuning datasets can uncover or enhance specific skills, while no single dataset (or combination) provides the best performance across all evaluations. Interestingly, we find that model and human preference-based evaluations fail to reflect differences in model capabilities exposed by benchmark-based evaluations, suggesting the need for the type of systemic evaluation performed in this work. Our evaluations show that the best model in any given evaluation reaches on average 83% of ChatGPT performance, and 68% of GPT-4 performance, suggesting that further investment in building better base models and instruction-tuning data is required to close the gap. We release our instruction-tuned models, including a fully finetuned 65B T\"ulu, along with our code, data, and evaluation framework at https://github.com/allenai/open-instruct to facilitate future research.
PDF50December 15, 2024