ChatPaper.aiChatPaper

Razonamiento de Sistema-1.5: Recorrido en Espacios de Lenguaje y Latentes con Atajos Dinámicos

System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

May 25, 2025
Autores: Xiaoqiang Wang, Suyuchen Wang, Yun Zhu, Bang Liu
cs.AI

Resumen

El razonamiento de cadena de pensamiento (CoT, por sus siglas en inglés) permite a los modelos de lenguaje de gran escala (LLMs) ir más allá de las respuestas rápidas del Sistema 1 y participar en un razonamiento deliberativo del Sistema 2. Sin embargo, esto conlleva una ineficiencia significativa debido a la salida intermedia verbosa. Los métodos recientes de razonamiento en el espacio latente mejoran la eficiencia al operar sobre estados ocultos sin decodificarlos en lenguaje, pero tratan todos los pasos de manera uniforme, sin distinguir deducciones críticas de pasos auxiliares, lo que resulta en un uso subóptimo de los recursos computacionales. En este artículo, proponemos el Razonamiento del Sistema 1.5, un marco de razonamiento adaptativo que asigna dinámicamente el cómputo a través de los pasos de razonamiento mediante rutas directas en el espacio latente. Específicamente, el Razonamiento del Sistema 1.5 introduce dos tipos de rutas directas dinámicas. La ruta directa de profundidad del modelo (DS) razona de manera adaptativa a lo largo de la profundidad vertical al salir tempranamente de tokens no críticos mediante ramas adaptadoras ligeras, mientras permite que los tokens críticos continúen a través de capas más profundas del Transformer. La ruta directa de paso (SS) reutiliza estados ocultos a través de los pasos de decodificación para omitir pasos triviales y razonar horizontalmente en el espacio latente. El entrenamiento del Razonamiento del Sistema 1.5 implica un proceso de auto-distilación en dos etapas: primero, distilar el CoT en lenguaje natural en pensamiento continuo en el espacio latente, y luego distilar el razonamiento latente del Sistema 2 de ruta completa en rutas directas adaptativas (Razonamiento del Sistema 1.5). Los experimentos en tareas de razonamiento demuestran el rendimiento superior de nuestro método. Por ejemplo, en GSM8K, el Razonamiento del Sistema 1.5 logra un rendimiento de razonamiento comparable a los métodos tradicionales de ajuste fino de CoT, mientras acelera la inferencia en más de 20 veces y reduce la generación de tokens en un 92.31% en promedio.
English
Chain-of-thought (CoT) reasoning enables large language models (LLMs) to move beyond fast System-1 responses and engage in deliberative System-2 reasoning. However, this comes at the cost of significant inefficiency due to verbose intermediate output. Recent latent-space reasoning methods improve efficiency by operating on hidden states without decoding into language, yet they treat all steps uniformly, failing to distinguish critical deductions from auxiliary steps and resulting in suboptimal use of computational resources. In this paper, we propose System-1.5 Reasoning, an adaptive reasoning framework that dynamically allocates computation across reasoning steps through shortcut paths in latent space. Specifically, System-1.5 Reasoning introduces two types of dynamic shortcuts. The model depth shortcut (DS) adaptively reasons along the vertical depth by early exiting non-critical tokens through lightweight adapter branches, while allowing critical tokens to continue through deeper Transformer layers. The step shortcut (SS) reuses hidden states across the decoding steps to skip trivial steps and reason horizontally in latent space. Training System-1.5 Reasoning involves a two-stage self-distillation process: first distilling natural language CoT into latent-space continuous thought, and then distilling full-path System-2 latent reasoning into adaptive shortcut paths (System-1.5 Reasoning). Experiments on reasoning tasks demonstrate the superior performance of our method. For example, on GSM8K, System-1.5 Reasoning achieves reasoning performance comparable to traditional CoT fine-tuning methods while accelerating inference by over 20x and reducing token generation by 92.31% on average.

Summary

AI-Generated Summary

PDF122May 30, 2025