Réglage minimal pour débloquer une production prolongée à partir de LLM avec des données de haute qualité comme clé
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key
October 14, 2024
Auteurs: Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao
cs.AI
Résumé
Alors que les grands modèles de langage évoluent rapidement pour prendre en charge un contexte plus long, on observe une disparité notable dans leur capacité à générer des sorties de plus grande longueur. Une étude récente suggère que la principale cause de ce déséquilibre pourrait provenir du manque de données avec des sorties longues lors de l'entraînement par alignement. À la lumière de cette observation, des tentatives sont faites pour réaligner les modèles de base avec des données comblant le fossé, ce qui donne des modèles capables de générer des sorties longues lorsqu'ils sont instruits. Dans cet article, nous explorons l'impact de la qualité des données dans l'ajustement d'un modèle pour des sorties longues, et la possibilité de le faire à partir des points de départ des modèles alignés sur l'humain (instructeur ou conversation). Grâce à une curation minutieuse des données, nous montrons qu'il est possible d'obtenir une amélioration de performance similaire dans nos modèles ajustés, avec seulement une petite fraction d'instances de données d'entraînement et de calcul. De plus, nous évaluons la généralisabilité de telles approches en appliquant nos recettes d'ajustement à plusieurs modèles. Nos résultats suggèrent que, bien que les capacités de génération de sorties longues varient d'un modèle à l'autre dès le départ, notre approche pour les ajuster avec des données de haute qualité en utilisant des ressources informatiques légères produit systématiquement une amélioration notable sur tous les modèles sur lesquels nous avons expérimenté. Nous avons rendu public notre ensemble de données curaté pour l'ajustement de la capacité d'écriture longue, les implémentations de l'ajustement et de l'évaluation du modèle, ainsi que les modèles affinés, tous accessibles librement.
English
As large language models rapidly evolve to support longer context, there is a
notable disparity in their capability to generate output at greater lengths.
Recent study suggests that the primary cause for this imbalance may arise from
the lack of data with long-output during alignment training. In light of this
observation, attempts are made to re-align foundation models with data that
fills the gap, which result in models capable of generating lengthy output when
instructed. In this paper, we explore the impact of data-quality in tuning a
model for long output, and the possibility of doing so from the starting points
of human-aligned (instruct or chat) models. With careful data curation, we show
that it possible to achieve similar performance improvement in our tuned
models, with only a small fraction of training data instances and compute. In
addition, we assess the generalizability of such approaches by applying our
tuning-recipes to several models. our findings suggest that, while capacities
for generating long output vary across different models out-of-the-box, our
approach to tune them with high-quality data using lite compute, consistently
yields notable improvement across all models we experimented on. We have made
public our curated dataset for tuning long-writing capability, the
implementations of model tuning and evaluation, as well as the fine-tuned
models, all of which can be openly-accessed.Summary
AI-Generated Summary