QueST: Incentivizando a los LLM para generar problemas difíciles
QueST: Incentivizing LLMs to Generate Difficult Problems
October 20, 2025
Autores: Hanxu Hu, Xingxing Zhang, Jannis Vamvas, Rico Sennrich, Furu Wei
cs.AI
Resumen
Los Modelos de Lenguaje a Gran Escala han logrado un rendimiento sólido en tareas de razonamiento, resolviendo problemas de codificación y matemáticas de nivel competitivo. Sin embargo, su escalabilidad está limitada por los conjuntos de datos etiquetados por humanos y la falta de datos de entrenamiento a gran escala para problemas de codificación desafiantes. Los conjuntos de datos existentes de codificación competitiva contienen solo miles o decenas de miles de problemas. Los métodos anteriores de generación de datos sintéticos dependen de la ampliación de conjuntos de datos de instrucciones existentes o de la selección de problemas desafiantes a partir de datos etiquetados por humanos. En este artículo, proponemos QueST, un marco novedoso que combina muestreo de grafos consciente de la dificultad y ajuste fino por rechazo consciente de la dificultad, optimizando directamente generadores especializados para crear problemas de codificación desafiantes. Nuestros generadores entrenados demuestran una capacidad superior incluso en comparación con GPT-4o para crear problemas desafiantes que benefician el rendimiento en tareas posteriores. Utilizamos QueST para generar problemas de codificación sintéticos a gran escala, que luego empleamos para destilar modelos maestros fuertes con cadenas de pensamiento largas o para realizar aprendizaje por refuerzo en modelos más pequeños, demostrando ser efectivos en ambos escenarios. Nuestros experimentos de destilación muestran mejoras significativas en el rendimiento. Específicamente, después de ajustar Qwen3-8B-base con 100K problemas difíciles generados por QueST, superamos el rendimiento del Qwen3-8B original en LiveCodeBench. Con 112K ejemplos adicionales (es decir, 28K problemas escritos por humanos emparejados con múltiples soluciones sintéticas), nuestro modelo de 8B iguala el rendimiento del mucho más grande DeepSeek-R1-671B. Estos hallazgos indican que la generación de problemas complejos a través de QueST ofrece un enfoque efectivo y escalable para avanzar en las fronteras de la codificación competitiva y el razonamiento para modelos de lenguaje a gran escala.
English
Large Language Models have achieved strong performance on reasoning tasks,
solving competition-level coding and math problems. However, their scalability
is limited by human-labeled datasets and the lack of large-scale, challenging
coding problem training data. Existing competitive coding datasets contain only
thousands to tens of thousands of problems. Previous synthetic data generation
methods rely on either augmenting existing instruction datasets or selecting
challenging problems from human-labeled data. In this paper, we propose QueST,
a novel framework which combines difficulty-aware graph sampling and
difficulty-aware rejection fine-tuning that directly optimizes specialized
generators to create challenging coding problems. Our trained generators
demonstrate superior capability compared to even GPT-4o at creating challenging
problems that benefit downstream performance. We leverage QueST to generate
large-scale synthetic coding problems, which we then use to distill from strong
teacher models with long chain-of-thought or to conduct reinforcement learning
for smaller models, proving effective in both scenarios. Our distillation
experiments demonstrate significant performance gains. Specifically, after
fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we
surpass the performance of the original Qwen3-8B on LiveCodeBench. With an
additional 112K examples (i.e., 28K human-written problems paired with multiple
synthetic solutions), our 8B model matches the performance of the much larger
DeepSeek-R1-671B. These findings indicate that generating complex problems via
QueST offers an effective and scalable approach to advancing the frontiers of
competitive coding and reasoning for large language models.