ChatPaper.aiChatPaper

Evaluación de Modelos de Lenguaje como Generadores de Datos Sintéticos

Evaluating Language Models as Synthetic Data Generators

December 4, 2024
Autores: Seungone Kim, Juyoung Suk, Xiang Yue, Vijay Viswanathan, Seongyun Lee, Yizhong Wang, Kiril Gashteovski, Carolin Lawrence, Sean Welleck, Graham Neubig
cs.AI

Resumen

Dado el creciente uso de datos sintéticos en el post-entrenamiento de modelos de lenguaje (LM), la capacidad de un LM para generar datos de alta calidad se ha vuelto casi tan crucial como su capacidad para resolver problemas directamente. Mientras que trabajos anteriores se han centrado en el desarrollo de métodos efectivos de generación de datos, carecen de una comparación sistemática de diferentes LMs como generadores de datos en un entorno unificado. Para abordar esta brecha, proponemos AgoraBench, un banco de pruebas que proporciona configuraciones y métricas estandarizadas para evaluar las capacidades de generación de datos de los LMs. A través de la síntesis de 1.26 millones de instancias de entrenamiento utilizando 6 LMs y el entrenamiento de 99 modelos estudiantiles, descubrimos ideas clave sobre las capacidades de generación de datos de los LMs. En primer lugar, observamos que los LMs exhiben fortalezas distintas. Por ejemplo, GPT-4o sobresale en la generación de nuevos problemas, mientras que Claude-3.5-Sonnet se desempeña mejor en mejorar los existentes. Además, nuestro análisis revela que la capacidad de generación de datos de un LM no necesariamente se correlaciona con su capacidad para resolver problemas. En su lugar, múltiples características intrínsecas de la calidad de los datos, incluida la calidad de la respuesta, la perplejidad y la dificultad de la instrucción, sirven colectivamente como mejores indicadores. Finalmente, demostramos que las elecciones estratégicas en el formato de salida y la selección de modelos conscientes del costo impactan significativamente en la efectividad de la generación de datos.
English
Given the increasing use of synthetic data in language model (LM) post-training, an LM's ability to generate high-quality data has become nearly as crucial as its ability to solve problems directly. While prior works have focused on developing effective data generation methods, they lack systematic comparison of different LMs as data generators in a unified setting. To address this gap, we propose AgoraBench, a benchmark that provides standardized settings and metrics to evaluate LMs' data generation abilities. Through synthesizing 1.26 million training instances using 6 LMs and training 99 student models, we uncover key insights about LMs' data generation capabilities. First, we observe that LMs exhibit distinct strengths. For instance, GPT-4o excels at generating new problems, while Claude-3.5-Sonnet performs better at enhancing existing ones. Furthermore, our analysis reveals that an LM's data generation ability doesn't necessarily correlate with its problem-solving ability. Instead, multiple intrinsic features of data quality-including response quality, perplexity, and instruction difficulty-collectively serve as better indicators. Finally, we demonstrate that strategic choices in output format and cost-conscious model selection significantly impact data generation effectiveness.

Summary

AI-Generated Summary

PDF492December 6, 2024