SimpleStrat: Diversificando la Generación de Modelos de Lenguaje con Estratificación
SimpleStrat: Diversifying Language Model Generation with Stratification
October 11, 2024
Autores: Justin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez
cs.AI
Resumen
Generar respuestas diversas a partir de grandes modelos de lenguaje (LLMs) es crucial para aplicaciones como la planificación/búsqueda y la generación de datos sintéticos, donde la diversidad proporciona respuestas distintas a lo largo de las generaciones. Enfoques anteriores se basan en aumentar la temperatura para incrementar la diversidad. Sin embargo, en contra de la creencia popular, demostramos que este enfoque no solo produce generaciones individuales de menor calidad a medida que aumenta la temperatura, sino que depende de que las probabilidades del siguiente token del modelo sean similares a la verdadera distribución de respuestas. Proponemos un enfoque alternativo que utiliza el propio modelo de lenguaje para dividir el espacio en estratos. En la inferencia, se selecciona un estrato al azar y se extrae una muestra desde el estrato. Para medir la diversidad, presentamos CoverageQA, un conjunto de datos de preguntas subespecificadas con múltiples respuestas igualmente plausibles, y evaluamos la diversidad midiendo la Divergencia KL entre la distribución de salida y la distribución uniforme sobre las respuestas válidas verdaderas. Dado que calcular la probabilidad por respuesta/solución para modelos propietarios es inviable, medimos la recuperación en soluciones verdaderas. Nuestra evaluación muestra que el uso de SimpleStrat logra un mayor nivel de recuperación en 0.05 en comparación con GPT-4o y una reducción promedio de 0.36 en la Divergencia KL en comparación con Llama 3.
English
Generating diverse responses from large language models (LLMs) is crucial for
applications such as planning/search and synthetic data generation, where
diversity provides distinct answers across generations. Prior approaches rely
on increasing temperature to increase diversity. However, contrary to popular
belief, we show not only does this approach produce lower quality individual
generations as temperature increases, but it depends on model's next-token
probabilities being similar to the true distribution of answers. We propose
, an alternative approach that uses the language model itself to
partition the space into strata. At inference, a random stratum is selected and
a sample drawn from within the strata. To measure diversity, we introduce
CoverageQA, a dataset of underspecified questions with multiple equally
plausible answers, and assess diversity by measuring KL Divergence between the
output distribution and uniform distribution over valid ground truth answers.
As computing probability per response/solution for proprietary models is
infeasible, we measure recall on ground truth solutions. Our evaluation show
using SimpleStrat achieves higher recall by 0.05 compared to GPT-4o and 0.36
average reduction in KL Divergence compared to Llama 3.Summary
AI-Generated Summary