ChatPaper.aiChatPaper

QueST: Incentivizando a los LLM para generar problemas difíciles

QueST: Incentivizing LLMs to Generate Difficult Problems

October 20, 2025
Autores: Hanxu Hu, Xingxing Zhang, Jannis Vamvas, Rico Sennrich, Furu Wei
cs.AI

Resumen

Los Modelos de Lenguaje a Gran Escala han logrado un rendimiento sólido en tareas de razonamiento, resolviendo problemas de codificación y matemáticas de nivel competitivo. Sin embargo, su escalabilidad está limitada por los conjuntos de datos etiquetados por humanos y la falta de datos de entrenamiento a gran escala para problemas de codificación desafiantes. Los conjuntos de datos existentes de codificación competitiva contienen solo miles o decenas de miles de problemas. Los métodos anteriores de generación de datos sintéticos dependen de la ampliación de conjuntos de datos de instrucciones existentes o de la selección de problemas desafiantes a partir de datos etiquetados por humanos. En este artículo, proponemos QueST, un marco novedoso que combina muestreo de grafos consciente de la dificultad y ajuste fino por rechazo consciente de la dificultad, optimizando directamente generadores especializados para crear problemas de codificación desafiantes. Nuestros generadores entrenados demuestran una capacidad superior incluso en comparación con GPT-4o para crear problemas desafiantes que benefician el rendimiento en tareas posteriores. Utilizamos QueST para generar problemas de codificación sintéticos a gran escala, que luego empleamos para destilar modelos maestros fuertes con cadenas de pensamiento largas o para realizar aprendizaje por refuerzo en modelos más pequeños, demostrando ser efectivos en ambos escenarios. Nuestros experimentos de destilación muestran mejoras significativas en el rendimiento. Específicamente, después de ajustar Qwen3-8B-base con 100K problemas difíciles generados por QueST, superamos el rendimiento del Qwen3-8B original en LiveCodeBench. Con 112K ejemplos adicionales (es decir, 28K problemas escritos por humanos emparejados con múltiples soluciones sintéticas), nuestro modelo de 8B iguala el rendimiento del mucho más grande DeepSeek-R1-671B. Estos hallazgos indican que la generación de problemas complejos a través de QueST ofrece un enfoque efectivo y escalable para avanzar en las fronteras de la codificación competitiva y el razonamiento para modelos de lenguaje a gran escala.
English
Large Language Models have achieved strong performance on reasoning tasks, solving competition-level coding and math problems. However, their scalability is limited by human-labeled datasets and the lack of large-scale, challenging coding problem training data. Existing competitive coding datasets contain only thousands to tens of thousands of problems. Previous synthetic data generation methods rely on either augmenting existing instruction datasets or selecting challenging problems from human-labeled data. In this paper, we propose QueST, a novel framework which combines difficulty-aware graph sampling and difficulty-aware rejection fine-tuning that directly optimizes specialized generators to create challenging coding problems. Our trained generators demonstrate superior capability compared to even GPT-4o at creating challenging problems that benefit downstream performance. We leverage QueST to generate large-scale synthetic coding problems, which we then use to distill from strong teacher models with long chain-of-thought or to conduct reinforcement learning for smaller models, proving effective in both scenarios. Our distillation experiments demonstrate significant performance gains. Specifically, after fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we surpass the performance of the original Qwen3-8B on LiveCodeBench. With an additional 112K examples (i.e., 28K human-written problems paired with multiple synthetic solutions), our 8B model matches the performance of the much larger DeepSeek-R1-671B. These findings indicate that generating complex problems via QueST offers an effective and scalable approach to advancing the frontiers of competitive coding and reasoning for large language models.
PDF282October 21, 2025