Ajuste mínimo para desbloquear una producción extensa de LLMs con datos de alta calidad como clave
Minimum Tuning to Unlock Long Output from LLMs with High Quality Data as the Key
October 14, 2024
Autores: Yingda Chen, Xingjun Wang, Jintao Huang, Yunlin Mao, Daoze Zhang, Yuze Zhao
cs.AI
Resumen
A medida que los modelos de lenguaje grandes evolucionan rápidamente para admitir un contexto más extenso, existe una notable disparidad en su capacidad para generar resultados de mayor longitud. Un estudio reciente sugiere que la causa principal de este desequilibrio puede surgir de la falta de datos con salidas largas durante el entrenamiento de alineación. A la luz de esta observación, se realizan intentos para reajustar los modelos base con datos que cubran la brecha, lo que resulta en modelos capaces de generar resultados extensos cuando se les instruye. En este documento, exploramos el impacto de la calidad de los datos en la sintonización de un modelo para producir resultados extensos, y la posibilidad de hacerlo desde los puntos de partida de modelos alineados con humanos (instrucción o chat). Con una cuidadosa curación de datos, demostramos que es posible lograr una mejora de rendimiento similar en nuestros modelos ajustados, con solo una pequeña fracción de instancias de datos de entrenamiento y cómputo. Además, evaluamos la generalizabilidad de tales enfoques aplicando nuestras recetas de sintonización a varios modelos. Nuestros hallazgos sugieren que, si bien las capacidades para generar resultados extensos varían entre diferentes modelos tal como vienen, nuestro enfoque para ajustarlos con datos de alta calidad utilizando cómputo ligero produce consistentemente una notable mejora en todos los modelos en los que experimentamos. Hemos hecho público nuestro conjunto de datos curado para la sintonización de la capacidad de redacción extensa, las implementaciones de sintonización y evaluación del modelo, así como los modelos ajustados, todos los cuales pueden ser accesibles abiertamente.
English
As large language models rapidly evolve to support longer context, there is a
notable disparity in their capability to generate output at greater lengths.
Recent study suggests that the primary cause for this imbalance may arise from
the lack of data with long-output during alignment training. In light of this
observation, attempts are made to re-align foundation models with data that
fills the gap, which result in models capable of generating lengthy output when
instructed. In this paper, we explore the impact of data-quality in tuning a
model for long output, and the possibility of doing so from the starting points
of human-aligned (instruct or chat) models. With careful data curation, we show
that it possible to achieve similar performance improvement in our tuned
models, with only a small fraction of training data instances and compute. In
addition, we assess the generalizability of such approaches by applying our
tuning-recipes to several models. our findings suggest that, while capacities
for generating long output vary across different models out-of-the-box, our
approach to tune them with high-quality data using lite compute, consistently
yields notable improvement across all models we experimented on. We have made
public our curated dataset for tuning long-writing capability, the
implementations of model tuning and evaluation, as well as the fine-tuned
models, all of which can be openly-accessed.