De Dieptegrens: Over de Limieten van Grote Taalmodellen bij het Ontdekken van Latente Planning

Samenvatting

De haalbaarheid van chain-of-thought (CoT) monitoring is afhankelijk van het onvermogen van modellen om effectief te redeneren in hun latente representaties. Toch is er weinig bekend over de grenzen van dergelijk latent redeneren in LLM's. Wij testen deze grenzen door te bestuderen of modellen zonder supervisie op tussenstappen multi-stap planningsstrategieën kunnen ontdekken en deze latent kunnen uitvoeren, binnen een enkele voorwaartse pass. Met behulp van grafiek-padzoektaken die het aantal benodigde latente planningsstappen precies controleren, leggen we een opvallende beperking bloot die niet wordt opgelost door massale schaalvergroting: kleine transformers die vanaf nul worden getraind, ontdekken strategieën die tot drie latente stappen vereisen, gefinetunede GPT-4o en Qwen3-32B halen er vijf, en GPT-5.4 bereikt er zeven onder few-shot prompting. Hoewel de maximale latente planningsdiepte die modellen tijdens training kunnen leren vijf is, generaliseert de ontdekte strategie tijdens de testfase tot acht latente stappen. Dit onthult een dissociatie tussen het vermogen om een latente strategie te ontdekken met uitsluitend supervisie op het eindantwoord, en het vermogen om deze uit te voeren eenmaal ontdekt. Als vergelijkbare limieten breder gelden, moeten strategieën die meerdere gecoördineerde latente planningsstappen vereisen mogelijk expliciet worden aangeleerd of geëxternaliseerd, wat geloofwaardigheid verleent aan CoT monitoring.

English

The viability of chain-of-thought (CoT) monitoring hinges on models being unable to reason effectively in their latent representations. Yet little is known about the limits of such latent reasoning in LLMs. We test these limits by studying whether models can discover multi-step planning strategies without supervision on intermediate steps and execute them latently, within a single forward pass. Using graph path-finding tasks that precisely control the number of required latent planning steps, we uncover a striking limitation unresolved by massive scaling: tiny transformers trained from scratch discover strategies requiring up to three latent steps, fine-tuned GPT-4o and Qwen3-32B reach five, and GPT-5.4 attains seven under few-shot prompting. Although the maximum latent planning depth models can learn during training is five, the discovered strategy generalizes up to eight latent steps at test-time. This reveals a dissociation between the ability to discover a latent strategy under final-answer supervision alone and the ability to execute it once discovered. If similar limits hold more broadly, strategies requiring multiple coordinated latent planning steps may need to be explicitly taught or externalized, lending credence to CoT monitoring.

De Dieptegrens: Over de Limieten van Grote Taalmodellen bij het Ontdekken van Latente Planning

The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning

Samenvatting

Support