QueST: Anreize für LLMs zur Generierung schwieriger Probleme
QueST: Incentivizing LLMs to Generate Difficult Problems
October 20, 2025
papers.authors: Hanxu Hu, Xingxing Zhang, Jannis Vamvas, Rico Sennrich, Furu Wei
cs.AI
papers.abstract
Große Sprachmodelle haben starke Leistungen bei Aufgaben zur logischen Argumentation erzielt, indem sie wettbewerbsfähige Programmier- und mathematische Probleme lösen. Ihre Skalierbarkeit wird jedoch durch menschlich annotierte Datensätze und den Mangel an umfangreichen, anspruchsvollen Trainingsdaten für Programmierprobleme begrenzt. Bestehende Datensätze für Wettbewerbsprogrammierung enthalten lediglich Tausende bis Zehntausende von Problemen. Bisherige Methoden zur synthetischen Datengenerierung stützen sich entweder auf die Erweiterung bestehender Instruktionsdatensätze oder auf die Auswahl anspruchsvoller Probleme aus menschlich annotierten Daten. In diesem Artikel stellen wir QueST vor, ein neuartiges Framework, das schwierigkeitsbewusstes Graph-Sampling und schwierigkeitsbewusstes Ablehnungs-Fine-Tuning kombiniert, um spezialisierte Generatoren direkt zu optimieren und anspruchsvolle Programmierprobleme zu erstellen. Unsere trainierten Generatoren zeigen eine überlegene Fähigkeit im Vergleich zu GPT-4o bei der Erstellung anspruchsvoller Probleme, die die nachgelagerte Leistung verbessern. Wir nutzen QueST, um groß angelegte synthetische Programmierprobleme zu generieren, die wir dann verwenden, um von starken Lehrermodellen mit langen Gedankenketten zu destillieren oder um Reinforcement Learning für kleinere Modelle durchzuführen, was sich in beiden Szenarien als effektiv erweist. Unsere Destillationsexperimente zeigen signifikante Leistungssteigerungen. Insbesondere übertraf nach dem Fine-Tuning von Qwen3-8B-base auf 100.000 schwierigen Problemen, die von QueST generiert wurden, die Leistung des ursprünglichen Qwen3-8B auf LiveCodeBench. Mit zusätzlichen 112.000 Beispielen (d.h. 28.000 von Menschen geschriebene Probleme, die mit mehreren synthetischen Lösungen gepaart sind), erreicht unser 8B-Modell die Leistung des deutlich größeren DeepSeek-R1-671B. Diese Ergebnisse deuten darauf hin, dass die Generierung komplexer Probleme über QueST einen effektiven und skalierbaren Ansatz bietet, um die Grenzen der Wettbewerbsprogrammierung und des logischen Denkens für große Sprachmodelle zu erweitern.
English
Large Language Models have achieved strong performance on reasoning tasks,
solving competition-level coding and math problems. However, their scalability
is limited by human-labeled datasets and the lack of large-scale, challenging
coding problem training data. Existing competitive coding datasets contain only
thousands to tens of thousands of problems. Previous synthetic data generation
methods rely on either augmenting existing instruction datasets or selecting
challenging problems from human-labeled data. In this paper, we propose QueST,
a novel framework which combines difficulty-aware graph sampling and
difficulty-aware rejection fine-tuning that directly optimizes specialized
generators to create challenging coding problems. Our trained generators
demonstrate superior capability compared to even GPT-4o at creating challenging
problems that benefit downstream performance. We leverage QueST to generate
large-scale synthetic coding problems, which we then use to distill from strong
teacher models with long chain-of-thought or to conduct reinforcement learning
for smaller models, proving effective in both scenarios. Our distillation
experiments demonstrate significant performance gains. Specifically, after
fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we
surpass the performance of the original Qwen3-8B on LiveCodeBench. With an
additional 112K examples (i.e., 28K human-written problems paired with multiple
synthetic solutions), our 8B model matches the performance of the much larger
DeepSeek-R1-671B. These findings indicate that generating complex problems via
QueST offers an effective and scalable approach to advancing the frontiers of
competitive coding and reasoning for large language models.