Z1: Effiziente Testzeit-Skalierung mit Code
Z1: Efficient Test-time Scaling with Code
April 1, 2025
Autoren: Zhaojian Yu, Yinghao Wu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) können durch Skalierung der Rechenleistung zur Laufzeit verbesserte Fähigkeiten zur Lösung komplexer Probleme erreichen, was jedoch oft längere Kontexte und zahlreiche Kosten für Schlussfolgerungstokens mit sich bringt. In diesem Artikel schlagen wir eine effiziente Methode zur Skalierung zur Laufzeit vor, bei der LLMs an Code-bezogenen Schlussfolgerungspfaden trainiert werden, wodurch sie überschüssige Denktokens reduzieren können, ohne die Leistung zu beeinträchtigen. Zunächst erstellen wir Z1-Code-Reasoning-107K, ein kuratiertes Datenset aus einfachen und komplexen Codierungsproblemen, die mit ihren kurzen und langen Lösungspfaden gepaart sind. Zweitens stellen wir ein neuartiges Shifted Thinking Window vor, um den Overhead durch Überdenken zu verringern, indem kontextbegrenzende Tags (z. B. <think>. . . </think>) entfernt und Schlussfolgerungstokens begrenzt werden. Unser Modell, Z1-7B, das mit Daten aus langen und kurzen Pfaden trainiert und mit dem Shifted Thinking Window ausgestattet ist, zeigt die Fähigkeit, sein Schlussfolgerungsniveau an die Komplexität der Probleme anzupassen, und weist eine effiziente Skalierung zur Laufzeit über verschiedene Schlussfolgerungsaufgaben hinweg auf, die die Leistung von R1-Distill-Qwen-7B mit etwa 30 % seiner durchschnittlichen Denktokens erreicht. Bemerkenswert ist, dass Z1-7B, das nur an Codepfaden feinabgestimmt wurde, eine Generalisierung auf breitere Schlussfolgerungsaufgaben zeigt (47,5 % auf GPQA Diamond). Unsere Analyse der effizienten Schlussfolgerungsauslösung liefert auch wertvolle Erkenntnisse für zukünftige Forschungen.
English
Large Language Models (LLMs) can achieve enhanced complex problem-solving
through test-time computing scaling, yet this often entails longer contexts and
numerous reasoning token costs. In this paper, we propose an efficient
test-time scaling method that trains LLMs on code-related reasoning
trajectories, facilitating their reduction of excess thinking tokens while
maintaining performance. First, we create Z1-Code-Reasoning-107K, a curated
dataset of simple and complex coding problems paired with their short and long
solution trajectories. Second, we present a novel Shifted Thinking Window to
mitigate overthinking overhead by removing context-delimiting tags (e.g.,
<think>. . . </think>) and capping reasoning tokens. Trained with long and
short trajectory data and equipped with Shifted Thinking Window, our model,
Z1-7B, demonstrates the ability to adjust its reasoning level as the complexity
of problems and exhibits efficient test-time scaling across different reasoning
tasks that matches R1-Distill-Qwen-7B performance with about 30% of its average
thinking tokens. Notably, fine-tuned with only code trajectories, Z1-7B
demonstrates generalization to broader reasoning tasks (47.5% on GPQA Diamond).
Our analysis of efficient reasoning elicitation also provides valuable insights
for future research.Summary
AI-Generated Summary