Het evalueren van taalmodellen als synthetische gegevensgeneratoren.
Evaluating Language Models as Synthetic Data Generators
December 4, 2024
Auteurs: Seungone Kim, Juyoung Suk, Xiang Yue, Vijay Viswanathan, Seongyun Lee, Yizhong Wang, Kiril Gashteovski, Carolin Lawrence, Sean Welleck, Graham Neubig
cs.AI
Samenvatting
Gezien het toenemende gebruik van synthetische data bij de post-training van taalmodellen (LM), is het vermogen van een LM om hoogwaardige data te genereren bijna net zo cruciaal geworden als zijn vermogen om problemen direct op te lossen. Hoewel eerdere werken zich hebben gericht op het ontwikkelen van effectieve methoden voor data generatie, ontbreekt het aan een systematische vergelijking van verschillende LMs als data generatoren in een uniforme setting. Om deze lacune aan te pakken, stellen wij AgoraBench voor, een benchmark die gestandaardiseerde instellingen en metrieken biedt om de data generatie capaciteiten van LMs te evalueren. Door 1,26 miljoen trainingsvoorbeelden te synthetiseren met behulp van 6 LMs en 99 studentenmodellen te trainen, onthullen we belangrijke inzichten over de data generatie mogelijkheden van LMs. Ten eerste observeren we dat LMs verschillende sterke punten vertonen. Zo blinkt GPT-4o uit in het genereren van nieuwe problemen, terwijl Claude-3.5-Sonnet beter presteert in het verbeteren van bestaande problemen. Bovendien onthult onze analyse dat het vermogen van een LM om data te genereren niet noodzakelijkerwijs correleert met zijn vermogen om problemen op te lossen. In plaats daarvan dienen meerdere intrinsieke kenmerken van datakwaliteit - waaronder responskwaliteit, perplexiteit en instructiemoeilijkheid - gezamenlijk als betere indicatoren. Tot slot tonen we aan dat strategische keuzes in outputformaat en kostenbewuste modelselectie aanzienlijke invloed hebben op de effectiviteit van data generatie.
English
Given the increasing use of synthetic data in language model (LM)
post-training, an LM's ability to generate high-quality data has become nearly
as crucial as its ability to solve problems directly. While prior works have
focused on developing effective data generation methods, they lack systematic
comparison of different LMs as data generators in a unified setting. To address
this gap, we propose AgoraBench, a benchmark that provides standardized
settings and metrics to evaluate LMs' data generation abilities. Through
synthesizing 1.26 million training instances using 6 LMs and training 99
student models, we uncover key insights about LMs' data generation
capabilities. First, we observe that LMs exhibit distinct strengths. For
instance, GPT-4o excels at generating new problems, while Claude-3.5-Sonnet
performs better at enhancing existing ones. Furthermore, our analysis reveals
that an LM's data generation ability doesn't necessarily correlate with its
problem-solving ability. Instead, multiple intrinsic features of data
quality-including response quality, perplexity, and instruction
difficulty-collectively serve as better indicators. Finally, we demonstrate
that strategic choices in output format and cost-conscious model selection
significantly impact data generation effectiveness.