QueST : Inciter les LLM à générer des problèmes difficiles

papers.abstract

Les modèles de langage de grande envergure ont obtenu des performances solides dans les tâches de raisonnement, résolvant des problèmes de codage et de mathématiques de niveau compétitif. Cependant, leur évolutivité est limitée par les ensembles de données annotés manuellement et le manque de données d'entraînement à grande échelle pour des problèmes de codage complexes. Les ensembles de données existants pour le codage compétitif ne contiennent que des milliers à des dizaines de milliers de problèmes. Les méthodes précédentes de génération de données synthétiques reposent soit sur l'augmentation des ensembles d'instructions existants, soit sur la sélection de problèmes complexes à partir de données annotées manuellement. Dans cet article, nous proposons QueST, un cadre novateur qui combine un échantillonnage de graphes sensible à la difficulté et un réglage fin par rejet sensible à la difficulté, optimisant directement des générateurs spécialisés pour créer des problèmes de codage complexes. Nos générateurs entraînés démontrent une capacité supérieure, même par rapport à GPT-4, pour créer des problèmes complexes qui améliorent les performances en aval. Nous exploitons QueST pour générer des problèmes de codage synthétiques à grande échelle, que nous utilisons ensuite pour distiller des modèles enseignants puissants avec des chaînes de raisonnement longues ou pour réaliser un apprentissage par renforcement pour des modèles plus petits, prouvant leur efficacité dans les deux scénarios. Nos expériences de distillation montrent des gains de performance significatifs. Plus précisément, après avoir affiné Qwen3-8B-base sur 100 000 problèmes difficiles générés par QueST, nous surpassons les performances du Qwen3-8B original sur LiveCodeBench. Avec 112 000 exemples supplémentaires (c'est-à-dire 28 000 problèmes rédigés par des humains associés à plusieurs solutions synthétiques), notre modèle de 8 milliards de paramètres atteint les performances du modèle beaucoup plus grand DeepSeek-R1-671B. Ces résultats indiquent que la génération de problèmes complexes via QueST offre une approche efficace et évolutive pour repousser les frontières du codage compétitif et du raisonnement pour les modèles de langage de grande envergure.

English

Large Language Models have achieved strong performance on reasoning tasks, solving competition-level coding and math problems. However, their scalability is limited by human-labeled datasets and the lack of large-scale, challenging coding problem training data. Existing competitive coding datasets contain only thousands to tens of thousands of problems. Previous synthetic data generation methods rely on either augmenting existing instruction datasets or selecting challenging problems from human-labeled data. In this paper, we propose QueST, a novel framework which combines difficulty-aware graph sampling and difficulty-aware rejection fine-tuning that directly optimizes specialized generators to create challenging coding problems. Our trained generators demonstrate superior capability compared to even GPT-4o at creating challenging problems that benefit downstream performance. We leverage QueST to generate large-scale synthetic coding problems, which we then use to distill from strong teacher models with long chain-of-thought or to conduct reinforcement learning for smaller models, proving effective in both scenarios. Our distillation experiments demonstrate significant performance gains. Specifically, after fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we surpass the performance of the original Qwen3-8B on LiveCodeBench. With an additional 112K examples (i.e., 28K human-written problems paired with multiple synthetic solutions), our 8B model matches the performance of the much larger DeepSeek-R1-671B. These findings indicate that generating complex problems via QueST offers an effective and scalable approach to advancing the frontiers of competitive coding and reasoning for large language models.

QueST : Inciter les LLM à générer des problèmes difficiles

QueST: Incentivizing LLMs to Generate Difficult Problems

papers.abstract

Support