Il Soffitto della Profondità: sui Limiti dei Modelli Linguistici di Grande Scala nella Scoperta della Pianificazione Latente

Abstract

La validità del monitoraggio del ragionamento a catena (CoT) dipende dall'incapacità dei modelli di ragionare efficacemente nelle loro rappresentazioni latenti. Tuttavia, si sa poco sui limiti di tale ragionamento latente nei LLM. Testiamo questi limiti studiando se i modelli possono scoprire strategie di pianificazione a più fasi senza supervisione sui passaggi intermedi e le possono eseguire in modo latente, all'interno di un singolo passaggio in avanti. Utilizzando compiti di ricerca di percorsi su grafi che controllano precisamente il numero di passaggi di pianificazione latente richiesti, scopriamo una notevole limitazione non risolta dalla scalatura massiva: piccoli transformer addestrati da zero scoprono strategie che richiedono fino a tre passaggi latenti, GPT-4o e Qwen3-32B messi a punto raggiungono i cinque, e GPT-5.4 ne raggiunge sette con prompt few-shot. Sebbene la massima profondità di pianificazione latente che i modelli possono apprendere durante l'addestramento sia cinque, la strategia scoperta si generalizza fino a otto passaggi latenti al momento del test. Ciò rivela una dissociazione tra la capacità di scoprire una strategia latente con la sola supervisione della risposta finale e la capacità di eseguirla una volta scoperta. Se limiti simili valgono più in generale, le strategie che richiedono più passaggi di pianificazione latente coordinati potrebbero dover essere insegnate esplicitamente o esternalizzate, conferendo credibilità al monitoraggio CoT.

English

The viability of chain-of-thought (CoT) monitoring hinges on models being unable to reason effectively in their latent representations. Yet little is known about the limits of such latent reasoning in LLMs. We test these limits by studying whether models can discover multi-step planning strategies without supervision on intermediate steps and execute them latently, within a single forward pass. Using graph path-finding tasks that precisely control the number of required latent planning steps, we uncover a striking limitation unresolved by massive scaling: tiny transformers trained from scratch discover strategies requiring up to three latent steps, fine-tuned GPT-4o and Qwen3-32B reach five, and GPT-5.4 attains seven under few-shot prompting. Although the maximum latent planning depth models can learn during training is five, the discovered strategy generalizes up to eight latent steps at test-time. This reveals a dissociation between the ability to discover a latent strategy under final-answer supervision alone and the ability to execute it once discovered. If similar limits hold more broadly, strategies requiring multiple coordinated latent planning steps may need to be explicitly taught or externalized, lending credence to CoT monitoring.

Il Soffitto della Profondità: sui Limiti dei Modelli Linguistici di Grande Scala nella Scoperta della Pianificazione Latente

The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning

Abstract

Support