QueST: Incentivizzare i LLM a Generare Problemi Difficili

Abstract

I modelli linguistici di grandi dimensioni hanno ottenuto prestazioni elevate nei compiti di ragionamento, risolvendo problemi di programmazione e matematica di livello competitivo. Tuttavia, la loro scalabilità è limitata dai dataset etichettati manualmente e dalla mancanza di dati di addestramento su larga scala per problemi di programmazione complessi. Gli attuali dataset di programmazione competitiva contengono solo migliaia o decine di migliaia di problemi. I metodi precedenti di generazione di dati sintetici si basano sull'aumento dei dataset di istruzioni esistenti o sulla selezione di problemi complessi da dati etichettati manualmente. In questo articolo, proponiamo QueST, un framework innovativo che combina il campionamento grafico consapevole della difficoltà e l'ottimizzazione con rifiuto consapevole della difficoltà, ottimizzando direttamente generatori specializzati per creare problemi di programmazione complessi. I nostri generatori addestrati dimostrano una capacità superiore rispetto a GPT-4o nel creare problemi complessi che migliorano le prestazioni a valle. Utilizziamo QueST per generare problemi di programmazione sintetici su larga scala, che poi impieghiamo per distillare da modelli insegnanti forti con lunghe catene di pensiero o per condurre apprendimento per rinforzo su modelli più piccoli, dimostrando efficacia in entrambi gli scenari. I nostri esperimenti di distillazione mostrano miglioramenti significativi nelle prestazioni. In particolare, dopo aver ottimizzato Qwen3-8B-base su 100K problemi complessi generati da QueST, superiamo le prestazioni del Qwen3-8B originale su LiveCodeBench. Con ulteriori 112K esempi (ovvero 28K problemi scritti manualmente abbinati a più soluzioni sintetiche), il nostro modello da 8B eguaglia le prestazioni del molto più grande DeepSeek-R1-671B. Questi risultati indicano che la generazione di problemi complessi tramite QueST offre un approccio efficace e scalabile per avanzare le frontiere della programmazione competitiva e del ragionamento nei modelli linguistici di grandi dimensioni.

English

Large Language Models have achieved strong performance on reasoning tasks, solving competition-level coding and math problems. However, their scalability is limited by human-labeled datasets and the lack of large-scale, challenging coding problem training data. Existing competitive coding datasets contain only thousands to tens of thousands of problems. Previous synthetic data generation methods rely on either augmenting existing instruction datasets or selecting challenging problems from human-labeled data. In this paper, we propose QueST, a novel framework which combines difficulty-aware graph sampling and difficulty-aware rejection fine-tuning that directly optimizes specialized generators to create challenging coding problems. Our trained generators demonstrate superior capability compared to even GPT-4o at creating challenging problems that benefit downstream performance. We leverage QueST to generate large-scale synthetic coding problems, which we then use to distill from strong teacher models with long chain-of-thought or to conduct reinforcement learning for smaller models, proving effective in both scenarios. Our distillation experiments demonstrate significant performance gains. Specifically, after fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we surpass the performance of the original Qwen3-8B on LiveCodeBench. With an additional 112K examples (i.e., 28K human-written problems paired with multiple synthetic solutions), our 8B model matches the performance of the much larger DeepSeek-R1-671B. These findings indicate that generating complex problems via QueST offers an effective and scalable approach to advancing the frontiers of competitive coding and reasoning for large language models.

QueST: Incentivizzare i LLM a Generare Problemi Difficili

QueST: Incentivizing LLMs to Generate Difficult Problems

Abstract

Support