ChatPaper.aiChatPaper

QueST: Anreize für LLMs zur Generierung schwieriger Probleme

QueST: Incentivizing LLMs to Generate Difficult Problems

October 20, 2025
papers.authors: Hanxu Hu, Xingxing Zhang, Jannis Vamvas, Rico Sennrich, Furu Wei
cs.AI

papers.abstract

Große Sprachmodelle haben starke Leistungen bei Aufgaben zur logischen Argumentation erzielt, indem sie wettbewerbsfähige Programmier- und mathematische Probleme lösen. Ihre Skalierbarkeit wird jedoch durch menschlich annotierte Datensätze und den Mangel an umfangreichen, anspruchsvollen Trainingsdaten für Programmierprobleme begrenzt. Bestehende Datensätze für Wettbewerbsprogrammierung enthalten lediglich Tausende bis Zehntausende von Problemen. Bisherige Methoden zur synthetischen Datengenerierung stützen sich entweder auf die Erweiterung bestehender Instruktionsdatensätze oder auf die Auswahl anspruchsvoller Probleme aus menschlich annotierten Daten. In diesem Artikel stellen wir QueST vor, ein neuartiges Framework, das schwierigkeitsbewusstes Graph-Sampling und schwierigkeitsbewusstes Ablehnungs-Fine-Tuning kombiniert, um spezialisierte Generatoren direkt zu optimieren und anspruchsvolle Programmierprobleme zu erstellen. Unsere trainierten Generatoren zeigen eine überlegene Fähigkeit im Vergleich zu GPT-4o bei der Erstellung anspruchsvoller Probleme, die die nachgelagerte Leistung verbessern. Wir nutzen QueST, um groß angelegte synthetische Programmierprobleme zu generieren, die wir dann verwenden, um von starken Lehrermodellen mit langen Gedankenketten zu destillieren oder um Reinforcement Learning für kleinere Modelle durchzuführen, was sich in beiden Szenarien als effektiv erweist. Unsere Destillationsexperimente zeigen signifikante Leistungssteigerungen. Insbesondere übertraf nach dem Fine-Tuning von Qwen3-8B-base auf 100.000 schwierigen Problemen, die von QueST generiert wurden, die Leistung des ursprünglichen Qwen3-8B auf LiveCodeBench. Mit zusätzlichen 112.000 Beispielen (d.h. 28.000 von Menschen geschriebene Probleme, die mit mehreren synthetischen Lösungen gepaart sind), erreicht unser 8B-Modell die Leistung des deutlich größeren DeepSeek-R1-671B. Diese Ergebnisse deuten darauf hin, dass die Generierung komplexer Probleme über QueST einen effektiven und skalierbaren Ansatz bietet, um die Grenzen der Wettbewerbsprogrammierung und des logischen Denkens für große Sprachmodelle zu erweitern.
English
Large Language Models have achieved strong performance on reasoning tasks, solving competition-level coding and math problems. However, their scalability is limited by human-labeled datasets and the lack of large-scale, challenging coding problem training data. Existing competitive coding datasets contain only thousands to tens of thousands of problems. Previous synthetic data generation methods rely on either augmenting existing instruction datasets or selecting challenging problems from human-labeled data. In this paper, we propose QueST, a novel framework which combines difficulty-aware graph sampling and difficulty-aware rejection fine-tuning that directly optimizes specialized generators to create challenging coding problems. Our trained generators demonstrate superior capability compared to even GPT-4o at creating challenging problems that benefit downstream performance. We leverage QueST to generate large-scale synthetic coding problems, which we then use to distill from strong teacher models with long chain-of-thought or to conduct reinforcement learning for smaller models, proving effective in both scenarios. Our distillation experiments demonstrate significant performance gains. Specifically, after fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we surpass the performance of the original Qwen3-8B on LiveCodeBench. With an additional 112K examples (i.e., 28K human-written problems paired with multiple synthetic solutions), our 8B model matches the performance of the much larger DeepSeek-R1-671B. These findings indicate that generating complex problems via QueST offers an effective and scalable approach to advancing the frontiers of competitive coding and reasoning for large language models.
PDF282October 21, 2025