QueST: Incentivizzare i LLM a Generare Problemi Difficili
QueST: Incentivizing LLMs to Generate Difficult Problems
October 20, 2025
Autori: Hanxu Hu, Xingxing Zhang, Jannis Vamvas, Rico Sennrich, Furu Wei
cs.AI
Abstract
I modelli linguistici di grandi dimensioni hanno ottenuto prestazioni elevate nei compiti di ragionamento, risolvendo problemi di programmazione e matematica di livello competitivo. Tuttavia, la loro scalabilità è limitata dai dataset etichettati manualmente e dalla mancanza di dati di addestramento su larga scala per problemi di programmazione complessi. Gli attuali dataset di programmazione competitiva contengono solo migliaia o decine di migliaia di problemi. I metodi precedenti di generazione di dati sintetici si basano sull'aumento dei dataset di istruzioni esistenti o sulla selezione di problemi complessi da dati etichettati manualmente. In questo articolo, proponiamo QueST, un framework innovativo che combina il campionamento grafico consapevole della difficoltà e l'ottimizzazione con rifiuto consapevole della difficoltà, ottimizzando direttamente generatori specializzati per creare problemi di programmazione complessi. I nostri generatori addestrati dimostrano una capacità superiore rispetto a GPT-4o nel creare problemi complessi che migliorano le prestazioni a valle. Utilizziamo QueST per generare problemi di programmazione sintetici su larga scala, che poi impieghiamo per distillare da modelli insegnanti forti con lunghe catene di pensiero o per condurre apprendimento per rinforzo su modelli più piccoli, dimostrando efficacia in entrambi gli scenari. I nostri esperimenti di distillazione mostrano miglioramenti significativi nelle prestazioni. In particolare, dopo aver ottimizzato Qwen3-8B-base su 100K problemi complessi generati da QueST, superiamo le prestazioni del Qwen3-8B originale su LiveCodeBench. Con ulteriori 112K esempi (ovvero 28K problemi scritti manualmente abbinati a più soluzioni sintetiche), il nostro modello da 8B eguaglia le prestazioni del molto più grande DeepSeek-R1-671B. Questi risultati indicano che la generazione di problemi complessi tramite QueST offre un approccio efficace e scalabile per avanzare le frontiere della programmazione competitiva e del ragionamento nei modelli linguistici di grandi dimensioni.
English
Large Language Models have achieved strong performance on reasoning tasks,
solving competition-level coding and math problems. However, their scalability
is limited by human-labeled datasets and the lack of large-scale, challenging
coding problem training data. Existing competitive coding datasets contain only
thousands to tens of thousands of problems. Previous synthetic data generation
methods rely on either augmenting existing instruction datasets or selecting
challenging problems from human-labeled data. In this paper, we propose QueST,
a novel framework which combines difficulty-aware graph sampling and
difficulty-aware rejection fine-tuning that directly optimizes specialized
generators to create challenging coding problems. Our trained generators
demonstrate superior capability compared to even GPT-4o at creating challenging
problems that benefit downstream performance. We leverage QueST to generate
large-scale synthetic coding problems, which we then use to distill from strong
teacher models with long chain-of-thought or to conduct reinforcement learning
for smaller models, proving effective in both scenarios. Our distillation
experiments demonstrate significant performance gains. Specifically, after
fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we
surpass the performance of the original Qwen3-8B on LiveCodeBench. With an
additional 112K examples (i.e., 28K human-written problems paired with multiple
synthetic solutions), our 8B model matches the performance of the much larger
DeepSeek-R1-671B. These findings indicate that generating complex problems via
QueST offers an effective and scalable approach to advancing the frontiers of
competitive coding and reasoning for large language models.