Z1: Эффективное масштабирование во время тестирования с использованием кода
Z1: Efficient Test-time Scaling with Code
April 1, 2025
Авторы: Zhaojian Yu, Yinghao Wu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
cs.AI
Аннотация
Крупные языковые модели (LLM) могут достигать улучшенного решения сложных задач за счет масштабирования вычислений во время тестирования, однако это часто связано с увеличением длины контекста и значительными затратами на токены рассуждений. В данной статье мы предлагаем эффективный метод масштабирования во время тестирования, который обучает LLM на траекториях рассуждений, связанных с кодом, что позволяет сократить избыточные токены мышления при сохранении производительности. Во-первых, мы создаем Z1-Code-Reasoning-107K — тщательно отобранный набор данных, содержащий простые и сложные задачи по программированию, сопряженные с их короткими и длинными траекториями решений. Во-вторых, мы представляем новый метод "Сдвинутое окно мышления" для снижения издержек чрезмерного мышления путем удаления ограничивающих контекст тегов (например, <think>. . . </think>) и ограничения количества токенов рассуждений. Обучаясь на данных с длинными и короткими траекториями и оснащенная методом "Сдвинутое окно мышления", наша модель Z1-7B демонстрирует способность адаптировать уровень рассуждений в зависимости от сложности задач и эффективно масштабироваться во время тестирования на различных задачах рассуждений, достигая производительности модели R1-Distill-Qwen-7B при использовании примерно 30% от среднего количества токенов мышления. Примечательно, что Z1-7B, дообученная только на траекториях кода, демонстрирует обобщение на более широкий спектр задач рассуждений (47,5% на GPQA Diamond). Наш анализ эффективного вызова рассуждений также предоставляет ценные инсайты для будущих исследований.
English
Large Language Models (LLMs) can achieve enhanced complex problem-solving
through test-time computing scaling, yet this often entails longer contexts and
numerous reasoning token costs. In this paper, we propose an efficient
test-time scaling method that trains LLMs on code-related reasoning
trajectories, facilitating their reduction of excess thinking tokens while
maintaining performance. First, we create Z1-Code-Reasoning-107K, a curated
dataset of simple and complex coding problems paired with their short and long
solution trajectories. Second, we present a novel Shifted Thinking Window to
mitigate overthinking overhead by removing context-delimiting tags (e.g.,
<think>. . . </think>) and capping reasoning tokens. Trained with long and
short trajectory data and equipped with Shifted Thinking Window, our model,
Z1-7B, demonstrates the ability to adjust its reasoning level as the complexity
of problems and exhibits efficient test-time scaling across different reasoning
tasks that matches R1-Distill-Qwen-7B performance with about 30% of its average
thinking tokens. Notably, fine-tuned with only code trajectories, Z1-7B
demonstrates generalization to broader reasoning tasks (47.5% on GPQA Diamond).
Our analysis of efficient reasoning elicitation also provides valuable insights
for future research.Summary
AI-Generated Summary