QueST : Inciter les LLM à générer des problèmes difficiles
QueST: Incentivizing LLMs to Generate Difficult Problems
October 20, 2025
papers.authors: Hanxu Hu, Xingxing Zhang, Jannis Vamvas, Rico Sennrich, Furu Wei
cs.AI
papers.abstract
Les modèles de langage de grande envergure ont obtenu des performances solides dans les tâches de raisonnement, résolvant des problèmes de codage et de mathématiques de niveau compétitif. Cependant, leur évolutivité est limitée par les ensembles de données annotés manuellement et le manque de données d'entraînement à grande échelle pour des problèmes de codage complexes. Les ensembles de données existants pour le codage compétitif ne contiennent que des milliers à des dizaines de milliers de problèmes. Les méthodes précédentes de génération de données synthétiques reposent soit sur l'augmentation des ensembles d'instructions existants, soit sur la sélection de problèmes complexes à partir de données annotées manuellement. Dans cet article, nous proposons QueST, un cadre novateur qui combine un échantillonnage de graphes sensible à la difficulté et un réglage fin par rejet sensible à la difficulté, optimisant directement des générateurs spécialisés pour créer des problèmes de codage complexes. Nos générateurs entraînés démontrent une capacité supérieure, même par rapport à GPT-4, pour créer des problèmes complexes qui améliorent les performances en aval. Nous exploitons QueST pour générer des problèmes de codage synthétiques à grande échelle, que nous utilisons ensuite pour distiller des modèles enseignants puissants avec des chaînes de raisonnement longues ou pour réaliser un apprentissage par renforcement pour des modèles plus petits, prouvant leur efficacité dans les deux scénarios. Nos expériences de distillation montrent des gains de performance significatifs. Plus précisément, après avoir affiné Qwen3-8B-base sur 100 000 problèmes difficiles générés par QueST, nous surpassons les performances du Qwen3-8B original sur LiveCodeBench. Avec 112 000 exemples supplémentaires (c'est-à-dire 28 000 problèmes rédigés par des humains associés à plusieurs solutions synthétiques), notre modèle de 8 milliards de paramètres atteint les performances du modèle beaucoup plus grand DeepSeek-R1-671B. Ces résultats indiquent que la génération de problèmes complexes via QueST offre une approche efficace et évolutive pour repousser les frontières du codage compétitif et du raisonnement pour les modèles de langage de grande envergure.
English
Large Language Models have achieved strong performance on reasoning tasks,
solving competition-level coding and math problems. However, their scalability
is limited by human-labeled datasets and the lack of large-scale, challenging
coding problem training data. Existing competitive coding datasets contain only
thousands to tens of thousands of problems. Previous synthetic data generation
methods rely on either augmenting existing instruction datasets or selecting
challenging problems from human-labeled data. In this paper, we propose QueST,
a novel framework which combines difficulty-aware graph sampling and
difficulty-aware rejection fine-tuning that directly optimizes specialized
generators to create challenging coding problems. Our trained generators
demonstrate superior capability compared to even GPT-4o at creating challenging
problems that benefit downstream performance. We leverage QueST to generate
large-scale synthetic coding problems, which we then use to distill from strong
teacher models with long chain-of-thought or to conduct reinforcement learning
for smaller models, proving effective in both scenarios. Our distillation
experiments demonstrate significant performance gains. Specifically, after
fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we
surpass the performance of the original Qwen3-8B on LiveCodeBench. With an
additional 112K examples (i.e., 28K human-written problems paired with multiple
synthetic solutions), our 8B model matches the performance of the much larger
DeepSeek-R1-671B. These findings indicate that generating complex problems via
QueST offers an effective and scalable approach to advancing the frontiers of
competitive coding and reasoning for large language models.