QueST: Het stimuleren van LLM's om moeilijke problemen te genereren

Samenvatting

Grote Taalmodellen hebben sterke prestaties behaald op redeneertaken, waarbij ze competitieniveau coderings- en wiskundeproblemen oplossen. Hun schaalbaarheid wordt echter beperkt door door mensen gelabelde datasets en het gebrek aan grootschalige, uitdagende trainingsdata voor coderingsproblemen. Bestaande datasets voor competitief programmeren bevatten slechts duizenden tot tienduizenden problemen. Eerdere methoden voor het genereren van synthetische data zijn gebaseerd op het uitbreiden van bestaande instructiedatasets of het selecteren van uitdagende problemen uit door mensen gelabelde data. In dit artikel stellen we QueST voor, een nieuw framework dat moeilijkheidsbewuste grafemonstering combineert met moeilijkheidsbewuste afwijzingsfine-tuning, om gespecialiseerde generatoren direct te optimaliseren voor het creëren van uitdagende coderingsproblemen. Onze getrainde generatoren tonen superieure capaciteiten vergeleken met zelfs GPT-4o in het creëren van uitdagende problemen die de downstreamprestaties ten goede komen. We benutten QueST om grootschalige synthetische coderingsproblemen te genereren, die we vervolgens gebruiken om te destilleren van sterke leraarmodellen met lange ketens van gedachten of om reinforcement learning uit te voeren voor kleinere modellen, wat in beide scenario's effectief blijkt. Onze destillatie-experimenten tonen aanzienlijke prestatieverbeteringen. Specifiek, na het fine-tunen van Qwen3-8B-base op 100K moeilijke problemen gegenereerd door QueST, overtreffen we de prestaties van de originele Qwen3-8B op LiveCodeBench. Met een extra 112K voorbeelden (d.w.z. 28K door mensen geschreven problemen gepaard met meerdere synthetische oplossingen), evenaart ons 8B-model de prestaties van het veel grotere DeepSeek-R1-671B. Deze bevindingen geven aan dat het genereren van complexe problemen via QueST een effectieve en schaalbare aanpak biedt om de grenzen van competitief programmeren en redeneren voor grote taalmodellen te verleggen.

English

Large Language Models have achieved strong performance on reasoning tasks, solving competition-level coding and math problems. However, their scalability is limited by human-labeled datasets and the lack of large-scale, challenging coding problem training data. Existing competitive coding datasets contain only thousands to tens of thousands of problems. Previous synthetic data generation methods rely on either augmenting existing instruction datasets or selecting challenging problems from human-labeled data. In this paper, we propose QueST, a novel framework which combines difficulty-aware graph sampling and difficulty-aware rejection fine-tuning that directly optimizes specialized generators to create challenging coding problems. Our trained generators demonstrate superior capability compared to even GPT-4o at creating challenging problems that benefit downstream performance. We leverage QueST to generate large-scale synthetic coding problems, which we then use to distill from strong teacher models with long chain-of-thought or to conduct reinforcement learning for smaller models, proving effective in both scenarios. Our distillation experiments demonstrate significant performance gains. Specifically, after fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we surpass the performance of the original Qwen3-8B on LiveCodeBench. With an additional 112K examples (i.e., 28K human-written problems paired with multiple synthetic solutions), our 8B model matches the performance of the much larger DeepSeek-R1-671B. These findings indicate that generating complex problems via QueST offers an effective and scalable approach to advancing the frontiers of competitive coding and reasoning for large language models.

QueST: Het stimuleren van LLM's om moeilijke problemen te genereren

QueST: Incentivizing LLMs to Generate Difficult Problems

Samenvatting

Support