Bewertung von Sprachmodellen als Erzeuger synthetischer Daten
Evaluating Language Models as Synthetic Data Generators
December 4, 2024
Autoren: Seungone Kim, Juyoung Suk, Xiang Yue, Vijay Viswanathan, Seongyun Lee, Yizhong Wang, Kiril Gashteovski, Carolin Lawrence, Sean Welleck, Graham Neubig
cs.AI
Zusammenfassung
Angesichts des zunehmenden Einsatzes synthetischer Daten im Sprachmodell (LM)-Nachtraining ist die Fähigkeit eines LM, hochwertige Daten zu generieren, fast genauso entscheidend wie seine Fähigkeit, Probleme direkt zu lösen. Während frühere Arbeiten sich darauf konzentrierten, effektive Methoden zur Datengenerierung zu entwickeln, fehlt es an einer systematischen Vergleich von verschiedenen LMs als Datengeneratoren in einem einheitlichen Rahmen. Um diese Lücke zu schließen, schlagen wir AgoraBench vor, einen Benchmark, der standardisierte Einstellungen und Metriken bereitstellt, um die Datengenerierungsfähigkeiten von LMs zu bewerten. Durch die Synthese von 1,26 Millionen Trainingsinstanzen unter Verwendung von 6 LMs und dem Training von 99 Schülermodellen decken wir wichtige Erkenntnisse über die Datengenerierungsfähigkeiten von LMs auf. Zunächst beobachten wir, dass LMs unterschiedliche Stärken aufweisen. Beispielsweise zeichnet sich GPT-4o durch die Generierung neuer Probleme aus, während Claude-3.5-Sonnet besser darin ist, bestehende zu verbessern. Darüber hinaus zeigt unsere Analyse, dass die Datengenerierungsfähigkeit eines LMs nicht unbedingt mit seiner Problemlösungsfähigkeit korreliert. Stattdessen dienen mehrere intrinsische Merkmale der Datenqualität - einschließlich Antwortqualität, Perplexität und Schwierigkeit der Anweisungen - gemeinsam als bessere Indikatoren. Schließlich zeigen wir, dass strategische Entscheidungen im Ausgabeformat und eine kostenbewusste Modellauswahl die Effektivität der Datengenerierung erheblich beeinflussen.
English
Given the increasing use of synthetic data in language model (LM)
post-training, an LM's ability to generate high-quality data has become nearly
as crucial as its ability to solve problems directly. While prior works have
focused on developing effective data generation methods, they lack systematic
comparison of different LMs as data generators in a unified setting. To address
this gap, we propose AgoraBench, a benchmark that provides standardized
settings and metrics to evaluate LMs' data generation abilities. Through
synthesizing 1.26 million training instances using 6 LMs and training 99
student models, we uncover key insights about LMs' data generation
capabilities. First, we observe that LMs exhibit distinct strengths. For
instance, GPT-4o excels at generating new problems, while Claude-3.5-Sonnet
performs better at enhancing existing ones. Furthermore, our analysis reveals
that an LM's data generation ability doesn't necessarily correlate with its
problem-solving ability. Instead, multiple intrinsic features of data
quality-including response quality, perplexity, and instruction
difficulty-collectively serve as better indicators. Finally, we demonstrate
that strategic choices in output format and cost-conscious model selection
significantly impact data generation effectiveness.Summary
AI-Generated Summary