Ajuste Mínimo para Desbloquear Saída Prolongada de LLMs com Dados de Alta Qualidade como Chave
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key
October 14, 2024
Autores: Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao
cs.AI
Resumo
À medida que os modelos de linguagem de grande escala evoluem rapidamente para suportar contextos mais longos, há uma disparidade notável em sua capacidade de gerar saídas de maior extensão. Um estudo recente sugere que a causa principal desse desequilíbrio pode surgir da falta de dados com saídas longas durante o treinamento de alinhamento. Diante dessa observação, tentativas são feitas para realinhar os modelos fundamentais com dados que preencham essa lacuna, resultando em modelos capazes de gerar saídas extensas quando instruídos. Neste artigo, exploramos o impacto da qualidade dos dados na sintonização de um modelo para saídas longas, e a possibilidade de fazê-lo a partir dos pontos de partida de modelos alinhados com humanos (instrução ou conversação). Com uma curadoria cuidadosa dos dados, demonstramos ser possível alcançar melhorias de desempenho semelhantes em nossos modelos ajustados, com apenas uma pequena fração de instâncias de dados de treinamento e computação. Além disso, avaliamos a generalizabilidade de tais abordagens aplicando nossas receitas de sintonização a vários modelos. Nossas descobertas sugerem que, embora as capacidades de gerar saídas longas variem entre diferentes modelos prontos para uso, nossa abordagem de ajustá-los com dados de alta qualidade usando computação leve resulta consistentemente em melhorias notáveis em todos os modelos nos quais experimentamos. Disponibilizamos publicamente nosso conjunto de dados curados para sintonizar a capacidade de escrita longa, as implementações de sintonização e avaliação do modelo, bem como os modelos ajustados, todos os quais podem ser acessados abertamente.
English
As large language models rapidly evolve to support longer context, there is a
notable disparity in their capability to generate output at greater lengths.
Recent study suggests that the primary cause for this imbalance may arise from
the lack of data with long-output during alignment training. In light of this
observation, attempts are made to re-align foundation models with data that
fills the gap, which result in models capable of generating lengthy output when
instructed. In this paper, we explore the impact of data-quality in tuning a
model for long output, and the possibility of doing so from the starting points
of human-aligned (instruct or chat) models. With careful data curation, we show
that it possible to achieve similar performance improvement in our tuned
models, with only a small fraction of training data instances and compute. In
addition, we assess the generalizability of such approaches by applying our
tuning-recipes to several models. our findings suggest that, while capacities
for generating long output vary across different models out-of-the-box, our
approach to tune them with high-quality data using lite compute, consistently
yields notable improvement across all models we experimented on. We have made
public our curated dataset for tuning long-writing capability, the
implementations of model tuning and evaluation, as well as the fine-tuned
models, all of which can be openly-accessed.Summary
AI-Generated Summary