Nessun Piano Globale nel Ragionamento a Catena: Scoprire l'Orizzonte di Pianificazione Latente dei LLM

Abstract

Questo lavoro trae origine da precedenti osservazioni complementari sulla dinamica del Chain-of-Thought (CoT): si dimostra che i Large Language Model (LLM) effettuano una pianificazione latente del ragionamento successivo prima dell'emergere del CoT, riducendo così il significato del CoT esplicito; mentre il CoT rimane critico per compiti che richiedono ragionamenti multi-step. Per approfondire la comprensione tra gli stati interni degli LLM e le loro traiettorie di ragionamento verbalizzate, investigiamo la forza di pianificazione latente degli LLM attraverso il nostro metodo di probing, Tele-Lens, applicato agli stati nascosti attraverso diversi domini di task. I nostri risultati empirici indicano che gli LLM mostrano un orizzonte miope, conducendo principalmente transizioni incrementali senza una precisa pianificazione globale. Sfruttando questa caratteristica, proponiamo un'ipotesi sul miglioramento della stima dell'incertezza del CoT, che validiamo dimostrando che un piccolo sottoinsieme di posizioni del CoT può rappresentare efficacemente l'incertezza dell'intero percorso. Sottolineiamo inoltre l'importanza di sfruttare le dinamiche del CoT e dimostriamo che il riconoscimento automatico del bypass del CoT può essere ottenuto senza degradazione delle prestazioni. Il nostro codice, dati e modelli sono rilasciati su https://github.com/lxucs/tele-lens.

English

This work stems from prior complementary observations on the dynamics of Chain-of-Thought (CoT): Large Language Models (LLMs) is shown latent planning of subsequent reasoning prior to CoT emergence, thereby diminishing the significance of explicit CoT; whereas CoT remains critical for tasks requiring multi-step reasoning. To deepen the understanding between LLM's internal states and its verbalized reasoning trajectories, we investigate the latent planning strength of LLMs, through our probing method, Tele-Lens, applying to hidden states across diverse task domains. Our empirical results indicate that LLMs exhibit a myopic horizon, primarily conducting incremental transitions without precise global planning. Leveraging this characteristic, we propose a hypothesis on enhancing uncertainty estimation of CoT, which we validate that a small subset of CoT positions can effectively represent the uncertainty of the entire path. We further underscore the significance of exploiting CoT dynamics, and demonstrate that automatic recognition of CoT bypass can be achieved without performance degradation. Our code, data and models are released at https://github.com/lxucs/tele-lens.

Nessun Piano Globale nel Ragionamento a Catena: Scoprire l'Orizzonte di Pianificazione Latente dei LLM

No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs

Abstract

Support