Apenas-SE: Revelando o Efeito Decisivo da Diversidade de Instruções na Generalização
Only-IF:Revealing the Decisive Effect of Instruction Diversity on Generalization
October 7, 2024
Autores: Dylan Zhang, Justin Wang, Francois Charton
cs.AI
Resumo
Compreender e seguir precisamente as instruções é fundamental para que os grandes modelos de linguagem (LLMs) sejam eficazes em diversas tarefas. Neste trabalho, examinamos rigorosamente os principais fatores que permitem aos modelos generalizar para instruções não vistas, fornecendo insights para orientar a coleta de dados para ajuste de instruções. Através de experimentos controlados, inspirados no algoritmo de Markov Turing-completo, demonstramos que tal generalização emerge apenas quando os dados de treinamento são suficientemente diversificados entre domínios semânticos. Nossas descobertas também revelam que simplesmente diversificar dentro de domínios limitados não garante uma generalização robusta. Em contraste, a diversificação de dados entre domínios, mesmo com orçamentos de dados restritos, melhora significativamente a adaptabilidade de um modelo. Estendemos nossa análise para cenários do mundo real, incluindo o ajuste fino de modelos especialistas e generalistas. Em ambos os casos, demonstramos que 1) um melhor desempenho pode ser alcançado aumentando a diversidade de um conjunto de dados estabelecido mantendo o tamanho dos dados constante, e 2) ao escalar os dados, diversificar as semânticas das instruções é mais eficaz do que simplesmente aumentar a quantidade de dados similares. Nossa pesquisa fornece insights importantes para a coleta de conjuntos de dados, especialmente ao otimizar o desempenho do modelo expandindo os dados de treinamento para cenários especialistas e generalistas. Mostramos que a consideração cuidadosa da diversificação de dados é fundamental: treinar modelos especialistas com dados que vão além de seu domínio principal resulta em melhorias significativas de desempenho, enquanto modelos generalistas se beneficiam de misturas de dados diversas que aprimoram suas capacidades gerais de seguir instruções em uma ampla gama de aplicações. Nossos resultados destacam o papel crítico da diversificação estratégica e oferecem diretrizes claras para melhorar a qualidade dos dados.
English
Understanding and accurately following instructions is critical for large
language models (LLMs) to be effective across diverse tasks. In this work, we
rigorously examine the key factors that enable models to generalize to unseen
instructions, providing insights to guide the collection of data for
instruction-tuning. Through controlled experiments, inspired by the
Turing-complete Markov algorithm, we demonstrate that such generalization
only emerges when training data is diversified enough across
semantic domains. Our findings also reveal that merely diversifying within
limited domains fails to ensure robust generalization. In contrast,
cross-domain data diversification, even under constrained data budgets,
significantly enhances a model's adaptability. We further extend our analysis
to real-world scenarios, including fine-tuning of
$textbf{specialist} and textbf{generalist}$ models.
In both cases, we demonstrate that 1) better performance can be achieved by
increasing the diversity of an established dataset while keeping the data size
constant, and 2) when scaling up the data, diversifying the semantics of
instructions is more effective than simply increasing the quantity of similar
data. Our research provides important insights for dataset collation,
particularly when optimizing model performance by expanding training data for
both specialist and generalist scenarios. We show that careful consideration of
data diversification is key: training specialist models with data extending
beyond their core domain leads to significant performance improvements, while
generalist models benefit from diverse data mixtures that enhance their overall
instruction-following capabilities across a wide range of applications. Our
results highlight the critical role of strategic diversification and offer
clear guidelines for improving data quality.Summary
AI-Generated Summary