QueST: Incentivando LLMs a Gerar Problemas Desafiadores
QueST: Incentivizing LLMs to Generate Difficult Problems
October 20, 2025
Autores: Hanxu Hu, Xingxing Zhang, Jannis Vamvas, Rico Sennrich, Furu Wei
cs.AI
Resumo
Modelos de Linguagem de Grande Escala têm alcançado um desempenho robusto em tarefas de raciocínio, resolvendo problemas de codificação e matemática de nível competitivo. No entanto, sua escalabilidade é limitada por conjuntos de dados rotulados por humanos e pela falta de dados de treinamento em grande escala para problemas de codificação desafiadores. Os conjuntos de dados existentes de codificação competitiva contêm apenas milhares a dezenas de milhares de problemas. Métodos anteriores de geração de dados sintéticos dependem da ampliação de conjuntos de dados de instrução existentes ou da seleção de problemas desafiadores a partir de dados rotulados por humanos. Neste artigo, propomos o QueST, uma estrutura inovadora que combina amostragem de grafos com consciência de dificuldade e ajuste fino com rejeição baseada em dificuldade, otimizando diretamente geradores especializados para criar problemas de codificação desafiadores. Nossos geradores treinados demonstram uma capacidade superior até mesmo ao GPT-4o na criação de problemas desafiadores que beneficiam o desempenho subsequente. Utilizamos o QueST para gerar problemas de codificação sintéticos em grande escala, que então empregamos para destilar modelos professores fortes com cadeias de pensamento longas ou para conduzir aprendizado por reforço em modelos menores, mostrando-se eficazes em ambos os cenários. Nossos experimentos de destilação demonstram ganhos significativos de desempenho. Especificamente, após ajustar o Qwen3-8B-base em 100 mil problemas difíceis gerados pelo QueST, superamos o desempenho do Qwen3-8B original no LiveCodeBench. Com mais 112 mil exemplos (ou seja, 28 mil problemas escritos por humanos pareados com múltiplas soluções sintéticas), nosso modelo de 8B iguala o desempenho do muito maior DeepSeek-R1-671B. Esses achados indicam que a geração de problemas complexos via QueST oferece uma abordagem eficaz e escalável para avançar as fronteiras da codificação competitiva e do raciocínio em modelos de linguagem de grande escala.
English
Large Language Models have achieved strong performance on reasoning tasks,
solving competition-level coding and math problems. However, their scalability
is limited by human-labeled datasets and the lack of large-scale, challenging
coding problem training data. Existing competitive coding datasets contain only
thousands to tens of thousands of problems. Previous synthetic data generation
methods rely on either augmenting existing instruction datasets or selecting
challenging problems from human-labeled data. In this paper, we propose QueST,
a novel framework which combines difficulty-aware graph sampling and
difficulty-aware rejection fine-tuning that directly optimizes specialized
generators to create challenging coding problems. Our trained generators
demonstrate superior capability compared to even GPT-4o at creating challenging
problems that benefit downstream performance. We leverage QueST to generate
large-scale synthetic coding problems, which we then use to distill from strong
teacher models with long chain-of-thought or to conduct reinforcement learning
for smaller models, proving effective in both scenarios. Our distillation
experiments demonstrate significant performance gains. Specifically, after
fine-tuning Qwen3-8B-base on 100K difficult problems generated by QueST, we
surpass the performance of the original Qwen3-8B on LiveCodeBench. With an
additional 112K examples (i.e., 28K human-written problems paired with multiple
synthetic solutions), our 8B model matches the performance of the much larger
DeepSeek-R1-671B. These findings indicate that generating complex problems via
QueST offers an effective and scalable approach to advancing the frontiers of
competitive coding and reasoning for large language models.