Die Tiefendecke: Über die Grenzen großer Sprachmodelle bei der Entdeckung latenter Planung

Zusammenfassung

Die Durchführbarkeit des Chain-of-Thought (CoT) Monitorings hängt davon ab, dass Modelle nicht in der Lage sind, effektiv in ihren latenten Repräsentationen zu schlussfolgern. Dennoch ist wenig über die Grenzen eines solchen latenten Denkens in LLMs bekannt. Wir testen diese Grenzen, indem wir untersuchen, ob Modelle mehrstufige Planungsstrategien ohne Überwachung der Zwischenschritte entdecken und sie latent, innerhalb eines einzelnen Vorwärtsdurchlaufs, ausführen können. Mithilfe von Graph-Pathfinding-Aufgaben, die die Anzahl der erforderlichen latenten Planungsschritte präzise steuern, decken wir eine auffällige Einschränkung auf, die auch durch massives Skalieren nicht behoben wird: Kleine von Grund auf trainierte Transformer entdecken Strategien, die bis zu drei latente Schritte erfordern, feinabgestimmte GPT-4o- und Qwen3-32B-Modelle erreichen fünf, und GPT-5.4 erreicht unter Few-Shot-Prompting sieben. Obwohl die maximale latente Planungstiefe, die Modelle während des Trainings erlernen können, bei fünf liegt, verallgemeinert die entdeckte Strategie auf bis zu acht latente Schritte zur Testzeit. Dies zeigt eine Dissoziation zwischen der Fähigkeit, eine latente Strategie allein unter Final-Antwort-Aufsicht zu entdecken, und der Fähigkeit, sie nach ihrer Entdeckung auszuführen. Falls ähnliche Grenzen allgemeiner gelten, müssen Strategien, die mehrere koordinierte latente Planungsschritte erfordern, möglicherweise explizit gelehrt oder externalisiert werden, was der Grundidee des CoT-Monitorings Glaubwürdigkeit verleiht.

English

The viability of chain-of-thought (CoT) monitoring hinges on models being unable to reason effectively in their latent representations. Yet little is known about the limits of such latent reasoning in LLMs. We test these limits by studying whether models can discover multi-step planning strategies without supervision on intermediate steps and execute them latently, within a single forward pass. Using graph path-finding tasks that precisely control the number of required latent planning steps, we uncover a striking limitation unresolved by massive scaling: tiny transformers trained from scratch discover strategies requiring up to three latent steps, fine-tuned GPT-4o and Qwen3-32B reach five, and GPT-5.4 attains seven under few-shot prompting. Although the maximum latent planning depth models can learn during training is five, the discovered strategy generalizes up to eight latent steps at test-time. This reveals a dissociation between the ability to discover a latent strategy under final-answer supervision alone and the ability to execute it once discovered. If similar limits hold more broadly, strategies requiring multiple coordinated latent planning steps may need to be explicitly taught or externalized, lending credence to CoT monitoring.

Die Tiefendecke: Über die Grenzen großer Sprachmodelle bei der Entdeckung latenter Planung

The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning

Zusammenfassung

Support