ChatPaper.aiChatPaper

Regolazione Minima per Sbloccare Output Prolungati da LLM con Dati di Alta Qualità come Chiave

Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key

October 14, 2024
Autori: Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao
cs.AI

Abstract

Con l'evoluzione rapida dei grandi modelli linguistici per supportare contesti più lunghi, si osserva una disparità significativa nella loro capacità di generare output di maggiori lunghezze. Uno studio recente suggerisce che la causa principale di questo squilibrio potrebbe derivare dalla mancanza di dati con output lunghi durante l'addestramento all'allineamento. Alla luce di questa osservazione, vengono effettuati tentativi per riallineare i modelli di base con dati che colmino il divario, il che porta a modelli capaci di generare output di lunghezza considerevole quando istruiti. In questo articolo, esploriamo l'impatto della qualità dei dati nel tarare un modello per output lunghi e la possibilità di farlo partendo dai punti di partenza dei modelli allineati all'umano (per istruzioni o chat). Con una cura attenta dei dati, dimostriamo che è possibile ottenere un miglioramento delle prestazioni simile nei nostri modelli tarati, utilizzando solo una piccola frazione delle istanze di dati di addestramento e delle risorse computazionali. Inoltre, valutiamo la generalizzabilità di tali approcci applicando le nostre ricette di taratura a diversi modelli. I nostri risultati suggeriscono che, sebbene le capacità di generare output lungo varino tra i diversi modelli di base, il nostro approccio per tararli con dati di alta qualità utilizzando risorse computazionali leggere produce costantemente un notevole miglioramento su tutti i modelli su cui abbiamo sperimentato. Abbiamo reso pubblici il nostro dataset curato per tarare la capacità di scrittura lunga, le implementazioni del taratura e valutazione del modello, così come i modelli tarati, tutti i quali possono essere liberamente accessibili.
English
As large language models rapidly evolve to support longer context, there is a notable disparity in their capability to generate output at greater lengths. Recent study suggests that the primary cause for this imbalance may arise from the lack of data with long-output during alignment training. In light of this observation, attempts are made to re-align foundation models with data that fills the gap, which result in models capable of generating lengthy output when instructed. In this paper, we explore the impact of data-quality in tuning a model for long output, and the possibility of doing so from the starting points of human-aligned (instruct or chat) models. With careful data curation, we show that it possible to achieve similar performance improvement in our tuned models, with only a small fraction of training data instances and compute. In addition, we assess the generalizability of such approaches by applying our tuning-recipes to several models. our findings suggest that, while capacities for generating long output vary across different models out-of-the-box, our approach to tune them with high-quality data using lite compute, consistently yields notable improvement across all models we experimented on. We have made public our curated dataset for tuning long-writing capability, the implementations of model tuning and evaluation, as well as the fine-tuned models, all of which can be openly-accessed.

Summary

AI-Generated Summary

PDF62November 16, 2024