Avaliando Modelos de Linguagem como Geradores de Dados Sintéticos
Evaluating Language Models as Synthetic Data Generators
December 4, 2024
Autores: Seungone Kim, Juyoung Suk, Xiang Yue, Vijay Viswanathan, Seongyun Lee, Yizhong Wang, Kiril Gashteovski, Carolin Lawrence, Sean Welleck, Graham Neubig
cs.AI
Resumo
Dado o aumento do uso de dados sintéticos no pós-treinamento de modelos de linguagem (LM), a capacidade de um LM gerar dados de alta qualidade tornou-se quase tão crucial quanto sua capacidade de resolver problemas diretamente. Enquanto trabalhos anteriores focaram no desenvolvimento de métodos eficazes de geração de dados, eles carecem de uma comparação sistemática de diferentes LMs como geradores de dados em um ambiente unificado. Para abordar essa lacuna, propomos o AgoraBench, um benchmark que fornece configurações e métricas padronizadas para avaliar as habilidades de geração de dados dos LMs. Através da síntese de 1,26 milhão de instâncias de treinamento usando 6 LMs e treinando 99 modelos estudantis, descobrimos insights importantes sobre as capacidades de geração de dados dos LMs. Primeiramente, observamos que os LMs exibem forças distintas. Por exemplo, o GPT-4o se destaca na geração de novos problemas, enquanto o Claude-3.5-Sonnet se sai melhor em aprimorar os já existentes. Além disso, nossa análise revela que a capacidade de geração de dados de um LM não necessariamente se correlaciona com sua capacidade de resolver problemas. Em vez disso, múltiplas características intrínsecas da qualidade dos dados - incluindo qualidade de resposta, perplexidade e dificuldade de instrução - servem coletivamente como melhores indicadores. Por fim, demonstramos que escolhas estratégicas no formato de saída e na seleção de modelos conscientes do custo impactam significativamente a eficácia da geração de dados.
English
Given the increasing use of synthetic data in language model (LM)
post-training, an LM's ability to generate high-quality data has become nearly
as crucial as its ability to solve problems directly. While prior works have
focused on developing effective data generation methods, they lack systematic
comparison of different LMs as data generators in a unified setting. To address
this gap, we propose AgoraBench, a benchmark that provides standardized
settings and metrics to evaluate LMs' data generation abilities. Through
synthesizing 1.26 million training instances using 6 LMs and training 99
student models, we uncover key insights about LMs' data generation
capabilities. First, we observe that LMs exhibit distinct strengths. For
instance, GPT-4o excels at generating new problems, while Claude-3.5-Sonnet
performs better at enhancing existing ones. Furthermore, our analysis reveals
that an LM's data generation ability doesn't necessarily correlate with its
problem-solving ability. Instead, multiple intrinsic features of data
quality-including response quality, perplexity, and instruction
difficulty-collectively serve as better indicators. Finally, we demonstrate
that strategic choices in output format and cost-conscious model selection
significantly impact data generation effectiveness.Summary
AI-Generated Summary