QueST: Стимулирование языковых моделей для генерации сложных задач
QueST: Incentivizing LLMs to Generate Difficult Problems
October 20, 2025
Авторы: Hanxu Hu, Xingxing Zhang, Jannis Vamvas, Rico Sennrich, Furu Wei
cs.AI
Аннотация
Крупные языковые модели демонстрируют высокую производительность в задачах, требующих логического мышления, решая задачи уровня соревнований по программированию и математике. Однако их масштабируемость ограничена наборами данных, размеченных вручную, и отсутствием крупномасштабных сложных данных для обучения в области программирования. Существующие наборы данных для соревновательного программирования содержат лишь тысячи или десятки тысяч задач. Предыдущие методы генерации синтетических данных основывались либо на расширении существующих наборов инструкций, либо на выборе сложных задач из данных, размеченных вручную. В данной работе мы предлагаем QueST — новый фреймворк, который сочетает в себе выборку графов с учетом сложности и тонкую настройку с отбраковкой, также учитывающую сложность, что позволяет напрямую оптимизировать специализированные генераторы для создания сложных задач по программированию. Наши обученные генераторы демонстрируют превосходные возможности по сравнению даже с GPT-4o в создании сложных задач, которые улучшают производительность в последующих задачах. Мы используем QueST для генерации крупномасштабных синтетических задач по программированию, которые затем применяем для дистилляции знаний из мощных моделей-учителей с длинными цепочками рассуждений или для проведения обучения с подкреплением для более компактных моделей, что доказывает свою эффективность в обоих сценариях. Наши эксперименты по дистилляции демонстрируют значительное улучшение производительности. В частности, после тонкой настройки модели Qwen3-8B-base на 100 тыс. сложных задач, сгенерированных QueST, мы превосходим производительность оригинальной Qwen3-8B на тесте LiveCodeBench. С дополнительными 112 тыс. примерами (т.е. 28 тыс. задач, написанных вручную, в паре с несколькими синтетическими решениями), наша 8B модель достигает производительности значительно более крупной модели DeepSeek-R1-671B. Эти результаты указывают на то, что генерация сложных задач с помощью QueST предлагает эффективный и масштабируемый подход для продвижения границ соревновательного программирования и логического мышления в крупных языковых моделях.
English
Large Language Models have achieved strong performance on reasoning tasks,
solving competition-level coding and math problems. However, their scalability
is limited by human-labeled datasets and the lack of large-scale, challenging
coding problem training data. Existing competitive coding datasets contain only
thousands to tens of thousands of problems. Previous synthetic data generation
methods rely on either augmenting existing instruction datasets or selecting
challenging problems from human-labeled data. In this paper, we propose QueST,
a novel framework which combines difficulty-aware graph sampling and
difficulty-aware rejection fine-tuning that directly optimizes specialized
generators to create challenging coding problems. Our trained generators
demonstrate superior capability compared to even GPT-4o at creating challenging
problems that benefit downstream performance. We leverage QueST to generate
large-scale synthetic coding problems, which we then use to distill from strong
teacher models with long chain-of-thought or to conduct reinforcement learning
for smaller models, proving effective in both scenarios. Our distillation
experiments demonstrate significant performance gains. Specifically, after
fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we
surpass the performance of the original Qwen3-8B on LiveCodeBench. With an
additional 112K examples (i.e., 28K human-written problems paired with multiple
synthetic solutions), our 8B model matches the performance of the much larger
DeepSeek-R1-671B. These findings indicate that generating complex problems via
QueST offers an effective and scalable approach to advancing the frontiers of
competitive coding and reasoning for large language models.