Évaluation des modèles de langage en tant que générateurs de données synthétiques

papers.abstract

Étant donné l'utilisation croissante de données synthétiques dans le post-entraînement des modèles de langage (LM), la capacité d'un LM à générer des données de haute qualité est devenue presque aussi cruciale que sa capacité à résoudre directement des problèmes. Alors que les travaux antérieurs se sont concentrés sur le développement de méthodes efficaces de génération de données, ils manquent d'une comparaison systématique des différents LMs en tant que générateurs de données dans un cadre unifié. Pour combler cette lacune, nous proposons AgoraBench, un banc d'essai qui fournit des paramètres et des métriques standardisés pour évaluer les capacités de génération de données des LMs. En synthétisant 1,26 million d'instances d'entraînement à l'aide de 6 LMs et en formant 99 modèles étudiants, nous mettons en lumière des informations clés sur les capacités de génération de données des LMs. Tout d'abord, nous observons que les LMs présentent des forces distinctes. Par exemple, GPT-4o excelle dans la génération de nouveaux problèmes, tandis que Claude-3.5-Sonnet performe mieux dans l'amélioration de ceux existants. De plus, notre analyse révèle que la capacité de génération de données d'un LM ne correle pas nécessairement avec sa capacité à résoudre des problèmes. Au lieu de cela, plusieurs caractéristiques intrinsèques de la qualité des données - y compris la qualité des réponses, la perplexité et la difficulté des instructions - servent collectivement de meilleurs indicateurs. Enfin, nous démontrons que des choix stratégiques dans le format de sortie et la sélection de modèles économiques ont un impact significatif sur l'efficacité de la génération de données.

English

Given the increasing use of synthetic data in language model (LM) post-training, an LM's ability to generate high-quality data has become nearly as crucial as its ability to solve problems directly. While prior works have focused on developing effective data generation methods, they lack systematic comparison of different LMs as data generators in a unified setting. To address this gap, we propose AgoraBench, a benchmark that provides standardized settings and metrics to evaluate LMs' data generation abilities. Through synthesizing 1.26 million training instances using 6 LMs and training 99 student models, we uncover key insights about LMs' data generation capabilities. First, we observe that LMs exhibit distinct strengths. For instance, GPT-4o excels at generating new problems, while Claude-3.5-Sonnet performs better at enhancing existing ones. Furthermore, our analysis reveals that an LM's data generation ability doesn't necessarily correlate with its problem-solving ability. Instead, multiple intrinsic features of data quality-including response quality, perplexity, and instruction difficulty-collectively serve as better indicators. Finally, we demonstrate that strategic choices in output format and cost-conscious model selection significantly impact data generation effectiveness.

Évaluation des modèles de langage en tant que générateurs de données synthétiques

Evaluating Language Models as Synthetic Data Generators

papers.abstract

Support