O Teto de Profundidade: Sobre os Limites dos Grandes Modelos de Linguagem na Descoberta de Planejamento Latente

Resumo

A viabilidade da monitorização da cadeia de pensamento (CoT) depende da incapacidade dos modelos de raciocinar eficazmente nas suas representações latentes. No entanto, pouco se sabe sobre os limites deste raciocínio latente em LLMs. Testamos estes limites investigando se os modelos podem descobrir estratégias de planeamento multi-etapa sem supervisão sobre os passos intermédios e executá-las de forma latente, numa única passagem direta. Utilizando tarefas de busca de caminhos em grafos que controlam precisamente o número de etapas de planeamento latente necessárias, descobrimos uma limitação notável não resolvida pela escalagem massiva: pequenos transformadores treinados do zero descobrem estratégias que requerem até três passos latentes, o GPT-4o e o Qwen3-32B afinados alcançam cinco, e o GPT-5.4 atinge sete sob *prompting* *few-shot*. Embora a profundidade máxima de planeamento latente que os modelos podem aprender durante o treino seja cinco, a estratégia descoberta generaliza até oito passos latentes no momento do teste. Isto revela uma dissociação entre a capacidade de descobrir uma estratégia latente apenas com supervisão da resposta final e a capacidade de a executar uma vez descoberta. Se limites semelhantes se verificarem de forma mais ampla, estratégias que exijam múltiplas etapas de planeamento latente coordenadas poderão ter de ser explicitamente ensinadas ou externalizadas, o que confere credibilidade à monitorização CoT.

English

The viability of chain-of-thought (CoT) monitoring hinges on models being unable to reason effectively in their latent representations. Yet little is known about the limits of such latent reasoning in LLMs. We test these limits by studying whether models can discover multi-step planning strategies without supervision on intermediate steps and execute them latently, within a single forward pass. Using graph path-finding tasks that precisely control the number of required latent planning steps, we uncover a striking limitation unresolved by massive scaling: tiny transformers trained from scratch discover strategies requiring up to three latent steps, fine-tuned GPT-4o and Qwen3-32B reach five, and GPT-5.4 attains seven under few-shot prompting. Although the maximum latent planning depth models can learn during training is five, the discovered strategy generalizes up to eight latent steps at test-time. This reveals a dissociation between the ability to discover a latent strategy under final-answer supervision alone and the ability to execute it once discovered. If similar limits hold more broadly, strategies requiring multiple coordinated latent planning steps may need to be explicitly taught or externalized, lending credence to CoT monitoring.

O Teto de Profundidade: Sobre os Limites dos Grandes Modelos de Linguagem na Descoberta de Planejamento Latente

The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning

Resumo

Support