Z1: Escalado eficiente en tiempo de prueba con código

Resumen

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) pueden lograr una mejora en la resolución de problemas complejos mediante el escalado computacional en tiempo de prueba, aunque esto suele implicar contextos más largos y un mayor costo en tokens de razonamiento. En este artículo, proponemos un método eficiente de escalado en tiempo de prueba que entrena a los LLMs en trayectorias de razonamiento relacionadas con código, facilitando la reducción de tokens de pensamiento excesivos mientras se mantiene el rendimiento. Primero, creamos Z1-Code-Reasoning-107K, un conjunto de datos curado que incluye problemas de codificación simples y complejos junto con sus trayectorias de solución cortas y largas. Segundo, presentamos una Ventana de Pensamiento Desplazado (Shifted Thinking Window) para mitigar la sobrecarga de pensamiento excesivo al eliminar etiquetas delimitadoras de contexto (por ejemplo, <think>. . . </think>) y limitar los tokens de razonamiento. Entrenado con datos de trayectorias largas y cortas y equipado con la Ventana de Pensamiento Desplazado, nuestro modelo, Z1-7B, demuestra la capacidad de ajustar su nivel de razonamiento según la complejidad de los problemas y exhibe un escalado eficiente en tiempo de prueba en diversas tareas de razonamiento, igualando el rendimiento de R1-Distill-Qwen-7B con aproximadamente el 30% de sus tokens de pensamiento promedio. Cabe destacar que, ajustado únicamente con trayectorias de código, Z1-7B muestra generalización a tareas de razonamiento más amplias (47.5% en GPQA Diamond). Nuestro análisis sobre la elicitación eficiente de razonamiento también proporciona valiosas ideas para futuras investigaciones.

English

Large Language Models (LLMs) can achieve enhanced complex problem-solving through test-time computing scaling, yet this often entails longer contexts and numerous reasoning token costs. In this paper, we propose an efficient test-time scaling method that trains LLMs on code-related reasoning trajectories, facilitating their reduction of excess thinking tokens while maintaining performance. First, we create Z1-Code-Reasoning-107K, a curated dataset of simple and complex coding problems paired with their short and long solution trajectories. Second, we present a novel Shifted Thinking Window to mitigate overthinking overhead by removing context-delimiting tags (e.g., <think>. . . </think>) and capping reasoning tokens. Trained with long and short trajectory data and equipped with Shifted Thinking Window, our model, Z1-7B, demonstrates the ability to adjust its reasoning level as the complexity of problems and exhibits efficient test-time scaling across different reasoning tasks that matches R1-Distill-Qwen-7B performance with about 30% of its average thinking tokens. Notably, fine-tuned with only code trajectories, Z1-7B demonstrates generalization to broader reasoning tasks (47.5% on GPQA Diamond). Our analysis of efficient reasoning elicitation also provides valuable insights for future research.

Z1: Escalado eficiente en tiempo de prueba con código

Z1: Efficient Test-time Scaling with Code

Resumen

Support