Оценка языковых моделей в качестве генераторов синтетических данных
Evaluating Language Models as Synthetic Data Generators
December 4, 2024
Авторы: Seungone Kim, Juyoung Suk, Xiang Yue, Vijay Viswanathan, Seongyun Lee, Yizhong Wang, Kiril Gashteovski, Carolin Lawrence, Sean Welleck, Graham Neubig
cs.AI
Аннотация
С увеличением использования синтетических данных в языковых моделях (LM) после обучения способность LM генерировать данные высокого качества стала почти так же важной, как его способность непосредственно решать проблемы. В то время как предыдущие работы сосредотачивались на разработке эффективных методов генерации данных, им не хватало систематического сравнения различных LM в качестве генераторов данных в единой среде. Для заполнения этого пробела мы предлагаем AgoraBench, бенчмарк, который предоставляет стандартизированные настройки и метрики для оценки способностей LM к генерации данных. Путем синтеза 1,26 миллиона обучающих примеров с использованием 6 LM и обучения 99 студенческих моделей мы выявляем ключевые идеи о способностях LM к генерации данных. Во-первых, мы замечаем, что LM обладают различными сильными сторонами. Например, GPT-4o отличается в генерации новых проблем, в то время как Claude-3.5-Sonnet лучше справляется с улучшением существующих. Кроме того, наш анализ показывает, что способность LM к генерации данных не обязательно коррелирует с его способностью решать проблемы. Вместо этого несколько внутренних характеристик качества данных, включая качество ответа, перплексию и сложность инструкций, вместе служат лучшими показателями. Наконец, мы демонстрируем, что стратегические выборы в формате вывода и экономичный выбор модели значительно влияют на эффективность генерации данных.
English
Given the increasing use of synthetic data in language model (LM)
post-training, an LM's ability to generate high-quality data has become nearly
as crucial as its ability to solve problems directly. While prior works have
focused on developing effective data generation methods, they lack systematic
comparison of different LMs as data generators in a unified setting. To address
this gap, we propose AgoraBench, a benchmark that provides standardized
settings and metrics to evaluate LMs' data generation abilities. Through
synthesizing 1.26 million training instances using 6 LMs and training 99
student models, we uncover key insights about LMs' data generation
capabilities. First, we observe that LMs exhibit distinct strengths. For
instance, GPT-4o excels at generating new problems, while Claude-3.5-Sonnet
performs better at enhancing existing ones. Furthermore, our analysis reveals
that an LM's data generation ability doesn't necessarily correlate with its
problem-solving ability. Instead, multiple intrinsic features of data
quality-including response quality, perplexity, and instruction
difficulty-collectively serve as better indicators. Finally, we demonstrate
that strategic choices in output format and cost-conscious model selection
significantly impact data generation effectiveness.Summary
AI-Generated Summary