Z1: Efficiënte schaling tijdens testen met code

Samenvatting

Large Language Models (LLMs) kunnen verbeterde complexe probleemoplossing bereiken door schaling van rekenkracht tijdens het testen, maar dit gaat vaak gepaard met langere contexten en hoge kosten voor redeneertokens. In dit artikel stellen we een efficiënte methode voor testtijd-schaling voor, waarbij LLMs worden getraind op codegerelateerde redeneertrajecten, waardoor ze overtollige denktokens kunnen verminderen terwijl de prestaties behouden blijven. Ten eerste creëren we Z1-Code-Reasoning-107K, een gecureerde dataset van eenvoudige en complexe codeerproblemen, gekoppeld aan hun korte en lange oplossingstrajecten. Ten tweede introduceren we een nieuw Shifted Thinking Window om overdenkingsoverhead te verminderen door contextafbakenende tags (bijv., <think>. . . </think>) te verwijderen en redeneertokens te beperken. Getraind met lange en korte trajectgegevens en uitgerust met het Shifted Thinking Window, toont ons model, Z1-7B, het vermogen om zijn redeneerniveau aan te passen aan de complexiteit van problemen en vertoont het efficiënte testtijd-schaling over verschillende redeneertaken, wat de prestaties van R1-Distill-Qwen-7B evenaart met ongeveer 30% van zijn gemiddelde denktokens. Opmerkelijk is dat Z1-7B, fijn afgestemd met alleen codetrajecten, generalisatie vertoont naar bredere redeneertaken (47,5% op GPQA Diamond). Onze analyse van efficiënte redeneringsuitlokking biedt ook waardevolle inzichten voor toekomstig onderzoek.

English

Large Language Models (LLMs) can achieve enhanced complex problem-solving through test-time computing scaling, yet this often entails longer contexts and numerous reasoning token costs. In this paper, we propose an efficient test-time scaling method that trains LLMs on code-related reasoning trajectories, facilitating their reduction of excess thinking tokens while maintaining performance. First, we create Z1-Code-Reasoning-107K, a curated dataset of simple and complex coding problems paired with their short and long solution trajectories. Second, we present a novel Shifted Thinking Window to mitigate overthinking overhead by removing context-delimiting tags (e.g., <think>. . . </think>) and capping reasoning tokens. Trained with long and short trajectory data and equipped with Shifted Thinking Window, our model, Z1-7B, demonstrates the ability to adjust its reasoning level as the complexity of problems and exhibits efficient test-time scaling across different reasoning tasks that matches R1-Distill-Qwen-7B performance with about 30% of its average thinking tokens. Notably, fine-tuned with only code trajectories, Z1-7B demonstrates generalization to broader reasoning tasks (47.5% on GPQA Diamond). Our analysis of efficient reasoning elicitation also provides valuable insights for future research.

Z1: Efficiënte schaling tijdens testen met code

Z1: Efficient Test-time Scaling with Code

Samenvatting

Support