Z1: Effiziente Testzeit-Skalierung mit Code

papers.abstract

Große Sprachmodelle (LLMs) können durch Skalierung der Rechenleistung zur Laufzeit verbesserte Fähigkeiten zur Lösung komplexer Probleme erreichen, was jedoch oft längere Kontexte und zahlreiche Kosten für Schlussfolgerungstokens mit sich bringt. In diesem Artikel schlagen wir eine effiziente Methode zur Skalierung zur Laufzeit vor, bei der LLMs an Code-bezogenen Schlussfolgerungspfaden trainiert werden, wodurch sie überschüssige Denktokens reduzieren können, ohne die Leistung zu beeinträchtigen. Zunächst erstellen wir Z1-Code-Reasoning-107K, ein kuratiertes Datenset aus einfachen und komplexen Codierungsproblemen, die mit ihren kurzen und langen Lösungspfaden gepaart sind. Zweitens stellen wir ein neuartiges Shifted Thinking Window vor, um den Overhead durch Überdenken zu verringern, indem kontextbegrenzende Tags (z. B. <think>. . . </think>) entfernt und Schlussfolgerungstokens begrenzt werden. Unser Modell, Z1-7B, das mit Daten aus langen und kurzen Pfaden trainiert und mit dem Shifted Thinking Window ausgestattet ist, zeigt die Fähigkeit, sein Schlussfolgerungsniveau an die Komplexität der Probleme anzupassen, und weist eine effiziente Skalierung zur Laufzeit über verschiedene Schlussfolgerungsaufgaben hinweg auf, die die Leistung von R1-Distill-Qwen-7B mit etwa 30 % seiner durchschnittlichen Denktokens erreicht. Bemerkenswert ist, dass Z1-7B, das nur an Codepfaden feinabgestimmt wurde, eine Generalisierung auf breitere Schlussfolgerungsaufgaben zeigt (47,5 % auf GPQA Diamond). Unsere Analyse der effizienten Schlussfolgerungsauslösung liefert auch wertvolle Erkenntnisse für zukünftige Forschungen.

English

Large Language Models (LLMs) can achieve enhanced complex problem-solving through test-time computing scaling, yet this often entails longer contexts and numerous reasoning token costs. In this paper, we propose an efficient test-time scaling method that trains LLMs on code-related reasoning trajectories, facilitating their reduction of excess thinking tokens while maintaining performance. First, we create Z1-Code-Reasoning-107K, a curated dataset of simple and complex coding problems paired with their short and long solution trajectories. Second, we present a novel Shifted Thinking Window to mitigate overthinking overhead by removing context-delimiting tags (e.g., <think>. . . </think>) and capping reasoning tokens. Trained with long and short trajectory data and equipped with Shifted Thinking Window, our model, Z1-7B, demonstrates the ability to adjust its reasoning level as the complexity of problems and exhibits efficient test-time scaling across different reasoning tasks that matches R1-Distill-Qwen-7B performance with about 30% of its average thinking tokens. Notably, fine-tuned with only code trajectories, Z1-7B demonstrates generalization to broader reasoning tasks (47.5% on GPQA Diamond). Our analysis of efficient reasoning elicitation also provides valuable insights for future research.

Z1: Effiziente Testzeit-Skalierung mit Code

Z1: Efficient Test-time Scaling with Code

papers.abstract

Support