Ragionamento System-1.5: Attraversamento negli Spazi Linguistici e Latenti con Collegamenti Dinamici Brevi

Abstract

Il ragionamento a catena di pensiero (Chain-of-Thought, CoT) consente ai grandi modelli linguistici (Large Language Models, LLMs) di andare oltre le risposte rapide del Sistema 1 e di impegnarsi in un ragionamento deliberativo del Sistema 2. Tuttavia, ciò avviene a scapito di una significativa inefficienza dovuta alla produzione verbosa di output intermedi. I recenti metodi di ragionamento nello spazio latente migliorano l'efficienza operando sugli stati nascosti senza decodificarli in linguaggio, ma trattano tutti i passi in modo uniforme, senza distinguere le deduzioni critiche dai passaggi ausiliari, risultando in un uso subottimale delle risorse computazionali. In questo articolo, proponiamo il Ragionamento Sistema-1.5, un framework adattivo che assegna dinamicamente il calcolo attraverso i passi di ragionamento mediante percorsi abbreviati nello spazio latente. Nello specifico, il Ragionamento Sistema-1.5 introduce due tipi di scorciatoie dinamiche. La scorciatoia di profondità del modello (Depth Shortcut, DS) ragiona adattivamente lungo la profondità verticale uscendo precocemente dai token non critici attraverso rami adattatori leggeri, mentre permette ai token critici di proseguire attraverso gli strati più profondi del Transformer. La scorciatoia di passo (Step Shortcut, SS) riutilizza gli stati nascosti tra i passi di decodifica per saltare i passaggi banali e ragionare orizzontalmente nello spazio latente. L'addestramento del Ragionamento Sistema-1.5 prevede un processo di auto-distillazione in due fasi: prima distillando il CoT in linguaggio naturale in pensiero continuo nello spazio latente, e poi distillando il ragionamento latente completo del Sistema 2 in percorsi abbreviati adattivi (Ragionamento Sistema-1.5). Gli esperimenti su compiti di ragionamento dimostrano la prestazione superiore del nostro metodo. Ad esempio, su GSM8K, il Ragionamento Sistema-1.5 raggiunge prestazioni di ragionamento paragonabili ai metodi tradizionali di fine-tuning CoT, accelerando l'inferenza di oltre 20 volte e riducendo la generazione di token del 92,31% in media.

English

Chain-of-thought (CoT) reasoning enables large language models (LLMs) to move beyond fast System-1 responses and engage in deliberative System-2 reasoning. However, this comes at the cost of significant inefficiency due to verbose intermediate output. Recent latent-space reasoning methods improve efficiency by operating on hidden states without decoding into language, yet they treat all steps uniformly, failing to distinguish critical deductions from auxiliary steps and resulting in suboptimal use of computational resources. In this paper, we propose System-1.5 Reasoning, an adaptive reasoning framework that dynamically allocates computation across reasoning steps through shortcut paths in latent space. Specifically, System-1.5 Reasoning introduces two types of dynamic shortcuts. The model depth shortcut (DS) adaptively reasons along the vertical depth by early exiting non-critical tokens through lightweight adapter branches, while allowing critical tokens to continue through deeper Transformer layers. The step shortcut (SS) reuses hidden states across the decoding steps to skip trivial steps and reason horizontally in latent space. Training System-1.5 Reasoning involves a two-stage self-distillation process: first distilling natural language CoT into latent-space continuous thought, and then distilling full-path System-2 latent reasoning into adaptive shortcut paths (System-1.5 Reasoning). Experiments on reasoning tasks demonstrate the superior performance of our method. For example, on GSM8K, System-1.5 Reasoning achieves reasoning performance comparable to traditional CoT fine-tuning methods while accelerating inference by over 20x and reducing token generation by 92.31% on average.

Ragionamento System-1.5: Attraversamento negli Spazi Linguistici e Latenti con Collegamenti Dinamici Brevi

System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

Abstract

Support