QueST: Het stimuleren van LLM's om moeilijke problemen te genereren
QueST: Incentivizing LLMs to Generate Difficult Problems
October 20, 2025
Auteurs: Hanxu Hu, Xingxing Zhang, Jannis Vamvas, Rico Sennrich, Furu Wei
cs.AI
Samenvatting
Grote Taalmodellen hebben sterke prestaties behaald op redeneertaken, waarbij ze competitieniveau coderings- en wiskundeproblemen oplossen. Hun schaalbaarheid wordt echter beperkt door door mensen gelabelde datasets en het gebrek aan grootschalige, uitdagende trainingsdata voor coderingsproblemen. Bestaande datasets voor competitief programmeren bevatten slechts duizenden tot tienduizenden problemen. Eerdere methoden voor het genereren van synthetische data zijn gebaseerd op het uitbreiden van bestaande instructiedatasets of het selecteren van uitdagende problemen uit door mensen gelabelde data. In dit artikel stellen we QueST voor, een nieuw framework dat moeilijkheidsbewuste grafemonstering combineert met moeilijkheidsbewuste afwijzingsfine-tuning, om gespecialiseerde generatoren direct te optimaliseren voor het creëren van uitdagende coderingsproblemen. Onze getrainde generatoren tonen superieure capaciteiten vergeleken met zelfs GPT-4o in het creëren van uitdagende problemen die de downstreamprestaties ten goede komen. We benutten QueST om grootschalige synthetische coderingsproblemen te genereren, die we vervolgens gebruiken om te destilleren van sterke leraarmodellen met lange ketens van gedachten of om reinforcement learning uit te voeren voor kleinere modellen, wat in beide scenario's effectief blijkt. Onze destillatie-experimenten tonen aanzienlijke prestatieverbeteringen. Specifiek, na het fine-tunen van Qwen3-8B-base op 100K moeilijke problemen gegenereerd door QueST, overtreffen we de prestaties van de originele Qwen3-8B op LiveCodeBench. Met een extra 112K voorbeelden (d.w.z. 28K door mensen geschreven problemen gepaard met meerdere synthetische oplossingen), evenaart ons 8B-model de prestaties van het veel grotere DeepSeek-R1-671B. Deze bevindingen geven aan dat het genereren van complexe problemen via QueST een effectieve en schaalbare aanpak biedt om de grenzen van competitief programmeren en redeneren voor grote taalmodellen te verleggen.
English
Large Language Models have achieved strong performance on reasoning tasks,
solving competition-level coding and math problems. However, their scalability
is limited by human-labeled datasets and the lack of large-scale, challenging
coding problem training data. Existing competitive coding datasets contain only
thousands to tens of thousands of problems. Previous synthetic data generation
methods rely on either augmenting existing instruction datasets or selecting
challenging problems from human-labeled data. In this paper, we propose QueST,
a novel framework which combines difficulty-aware graph sampling and
difficulty-aware rejection fine-tuning that directly optimizes specialized
generators to create challenging coding problems. Our trained generators
demonstrate superior capability compared to even GPT-4o at creating challenging
problems that benefit downstream performance. We leverage QueST to generate
large-scale synthetic coding problems, which we then use to distill from strong
teacher models with long chain-of-thought or to conduct reinforcement learning
for smaller models, proving effective in both scenarios. Our distillation
experiments demonstrate significant performance gains. Specifically, after
fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we
surpass the performance of the original Qwen3-8B on LiveCodeBench. With an
additional 112K examples (i.e., 28K human-written problems paired with multiple
synthetic solutions), our 8B model matches the performance of the much larger
DeepSeek-R1-671B. These findings indicate that generating complex problems via
QueST offers an effective and scalable approach to advancing the frontiers of
competitive coding and reasoning for large language models.