Évaluation des modèles de langage en tant que générateurs de données synthétiques
Evaluating Language Models as Synthetic Data Generators
December 4, 2024
Auteurs: Seungone Kim, Juyoung Suk, Xiang Yue, Vijay Viswanathan, Seongyun Lee, Yizhong Wang, Kiril Gashteovski, Carolin Lawrence, Sean Welleck, Graham Neubig
cs.AI
Résumé
Étant donné l'utilisation croissante de données synthétiques dans le post-entraînement des modèles de langage (LM), la capacité d'un LM à générer des données de haute qualité est devenue presque aussi cruciale que sa capacité à résoudre directement des problèmes. Alors que les travaux antérieurs se sont concentrés sur le développement de méthodes efficaces de génération de données, ils manquent d'une comparaison systématique des différents LMs en tant que générateurs de données dans un cadre unifié. Pour combler cette lacune, nous proposons AgoraBench, un banc d'essai qui fournit des paramètres et des métriques standardisés pour évaluer les capacités de génération de données des LMs. En synthétisant 1,26 million d'instances d'entraînement à l'aide de 6 LMs et en formant 99 modèles étudiants, nous mettons en lumière des informations clés sur les capacités de génération de données des LMs. Tout d'abord, nous observons que les LMs présentent des forces distinctes. Par exemple, GPT-4o excelle dans la génération de nouveaux problèmes, tandis que Claude-3.5-Sonnet performe mieux dans l'amélioration de ceux existants. De plus, notre analyse révèle que la capacité de génération de données d'un LM ne correle pas nécessairement avec sa capacité à résoudre des problèmes. Au lieu de cela, plusieurs caractéristiques intrinsèques de la qualité des données - y compris la qualité des réponses, la perplexité et la difficulté des instructions - servent collectivement de meilleurs indicateurs. Enfin, nous démontrons que des choix stratégiques dans le format de sortie et la sélection de modèles économiques ont un impact significatif sur l'efficacité de la génération de données.
English
Given the increasing use of synthetic data in language model (LM)
post-training, an LM's ability to generate high-quality data has become nearly
as crucial as its ability to solve problems directly. While prior works have
focused on developing effective data generation methods, they lack systematic
comparison of different LMs as data generators in a unified setting. To address
this gap, we propose AgoraBench, a benchmark that provides standardized
settings and metrics to evaluate LMs' data generation abilities. Through
synthesizing 1.26 million training instances using 6 LMs and training 99
student models, we uncover key insights about LMs' data generation
capabilities. First, we observe that LMs exhibit distinct strengths. For
instance, GPT-4o excels at generating new problems, while Claude-3.5-Sonnet
performs better at enhancing existing ones. Furthermore, our analysis reveals
that an LM's data generation ability doesn't necessarily correlate with its
problem-solving ability. Instead, multiple intrinsic features of data
quality-including response quality, perplexity, and instruction
difficulty-collectively serve as better indicators. Finally, we demonstrate
that strategic choices in output format and cost-conscious model selection
significantly impact data generation effectiveness.Summary
AI-Generated Summary