Cómo Hacer que tu Modelo de Lenguaje Grande Genere Problemas Desafiantes para Evaluación
How to Get Your LLM to Generate Challenging Problems for Evaluation
February 20, 2025
Autores: Arkil Patel, Siva Reddy, Dzmitry Bahdanau
cs.AI
Resumen
El ritmo de evolución de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) exige nuevos enfoques para una evaluación rigurosa y exhaustiva. La anotación humana tradicional resulta cada vez más impracticable debido a las complejidades y costos asociados con la generación de problemas desafiantes y de alta calidad. En este trabajo, presentamos CHASE, un marco unificado para generar sintéticamente problemas desafiantes utilizando LLMs sin intervención humana. Para una tarea dada, nuestro enfoque construye un problema difícil de manera ascendente a partir de componentes más simples. Además, nuestro marco descompone el proceso de generación en sub-tareas independientemente verificables, garantizando así un alto nivel de calidad y corrección. Implementamos CHASE para crear puntos de referencia de evaluación en tres dominios diversos: (1) respuesta a preguntas basadas en documentos, (2) completado de código a nivel de repositorio y (3) razonamiento matemático. El rendimiento de los LLMs más avanzados en estos puntos de referencia sintéticos se sitúa en un rango de precisión del 40-60%, demostrando así la efectividad de nuestro marco para generar problemas desafiantes. Publicamos nuestros puntos de referencia y código de manera abierta.
English
The pace of evolution of Large Language Models (LLMs) necessitates new
approaches for rigorous and comprehensive evaluation. Traditional human
annotation is increasingly impracticable due to the complexities and costs
involved in generating high-quality, challenging problems. In this work, we
introduce CHASE, a unified framework to synthetically generate challenging
problems using LLMs without human involvement. For a given task, our approach
builds a hard problem in a bottom-up manner from simpler components. Moreover,
our framework decomposes the generation process into independently verifiable
sub-tasks, thereby ensuring a high level of quality and correctness. We
implement CHASE to create evaluation benchmarks across three diverse domains:
(1) document-based question answering, (2) repository-level code completion,
and (3) math reasoning. The performance of state-of-the-art LLMs on these
synthetic benchmarks lies in the range of 40-60% accuracy, thereby
demonstrating the effectiveness of our framework at generating challenging
problems. We publicly release our benchmarks and code.Summary
AI-Generated Summary