ChatPaper.aiChatPaper

QueST: LLMに難しい問題を生成させるためのインセンティブ設計

QueST: Incentivizing LLMs to Generate Difficult Problems

October 20, 2025
著者: Hanxu Hu, Xingxing Zhang, Jannis Vamvas, Rico Sennrich, Furu Wei
cs.AI

要旨

大規模言語モデルは、推論タスクにおいて強力な性能を発揮し、競技レベルのコーディングや数学問題を解決しています。しかし、そのスケーラビリティは、人間によるラベル付きデータセットと、大規模で挑戦的なコーディング問題のトレーニングデータの不足によって制限されています。既存の競技コーディングデータセットは、数千から数万の問題しか含んでいません。従来の合成データ生成手法は、既存の指示データセットを拡張するか、人間によるラベル付きデータから挑戦的な問題を選択することに依存していました。本論文では、QueSTという新しいフレームワークを提案します。このフレームワークは、難易度を意識したグラフサンプリングと難易度を意識したリジェクト微調整を組み合わせ、挑戦的なコーディング問題を作成するために特化した生成器を直接最適化します。私たちが訓練した生成器は、GPT-4oと比較しても、下流の性能を向上させる挑戦的な問題を作成する能力において優れていることを示しています。QueSTを活用して大規模な合成コーディング問題を生成し、それを長い連鎖思考を持つ強力な教師モデルからの蒸留や、より小さなモデルのための強化学習に使用し、両方のシナリオで有効であることを証明しました。私たちの蒸留実験は、顕著な性能向上を示しています。具体的には、QueSTによって生成された100Kの難しい問題でQwen3-8B-baseを微調整した後、LiveCodeBenchにおいて元のQwen3-8Bの性能を上回りました。さらに112Kの例(つまり、28Kの人間が書いた問題と複数の合成ソリューションを組み合わせたもの)を追加することで、私たちの8Bモデルは、はるかに大規模なDeepSeek-R1-671Bの性能に匹敵しました。これらの発見は、QueSTを通じて複雑な問題を生成することが、大規模言語モデルの競技コーディングと推論のフロンティアを進めるための効果的でスケーラブルなアプローチを提供することを示しています。
English
Large Language Models have achieved strong performance on reasoning tasks, solving competition-level coding and math problems. However, their scalability is limited by human-labeled datasets and the lack of large-scale, challenging coding problem training data. Existing competitive coding datasets contain only thousands to tens of thousands of problems. Previous synthetic data generation methods rely on either augmenting existing instruction datasets or selecting challenging problems from human-labeled data. In this paper, we propose QueST, a novel framework which combines difficulty-aware graph sampling and difficulty-aware rejection fine-tuning that directly optimizes specialized generators to create challenging coding problems. Our trained generators demonstrate superior capability compared to even GPT-4o at creating challenging problems that benefit downstream performance. We leverage QueST to generate large-scale synthetic coding problems, which we then use to distill from strong teacher models with long chain-of-thought or to conduct reinforcement learning for smaller models, proving effective in both scenarios. Our distillation experiments demonstrate significant performance gains. Specifically, after fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we surpass the performance of the original Qwen3-8B on LiveCodeBench. With an additional 112K examples (i.e., 28K human-written problems paired with multiple synthetic solutions), our 8B model matches the performance of the much larger DeepSeek-R1-671B. These findings indicate that generating complex problems via QueST offers an effective and scalable approach to advancing the frontiers of competitive coding and reasoning for large language models.
PDF282October 21, 2025