Le Plafond de Profondeur : Sur les Limites des Grands Modèles de Langage dans la Découverte de Planification Latente

Résumé

La viabilité de la surveillance par chaîne de pensée (CoT) repose sur l'incapacité supposée des modèles à raisonner efficacement dans leurs représentations latentes. Pourtant, on sait peu de choses sur les limites d'un tel raisonnement latent dans les grands modèles de langage. Nous testons ces limites en étudiant si les modèles peuvent découvrir des stratégies de planification multi-étapes sans supervision sur les étapes intermédiaires et les exécuter de manière latente, en une seule passe avant. En utilisant des tâches de recherche de chemins dans des graphes qui contrôlent précisément le nombre d'étapes de planification latente requises, nous mettons au jour une limitation frappante non résolue par la mise à l'échelle massive : de petits transformers entraînés à partir de zéro découvrent des stratégies nécessitant jusqu'à trois étapes latentes, GPT-4o et Qwen3-32B affinés atteignent cinq étapes, et GPT-5.4 en atteint sept avec un amorçage few-shot. Bien que la profondeur de planification latente maximale que les modèles peuvent apprendre pendant l'entraînement soit de cinq, la stratégie découverte se généralise jusqu'à huit étapes latentes lors des tests. Cela révèle une dissociation entre la capacité à découvrir une stratégie latente avec une supervision basée uniquement sur la réponse finale et la capacité à l'exécuter une fois découverte. Si des limites similaires s'appliquent plus largement, les stratégies nécessitant de multiples étapes de planification latente coordonnées pourraient devoir être explicitement enseignées ou externalisées, ce qui conforte le bien-fondé de la surveillance par CoT.

English

The viability of chain-of-thought (CoT) monitoring hinges on models being unable to reason effectively in their latent representations. Yet little is known about the limits of such latent reasoning in LLMs. We test these limits by studying whether models can discover multi-step planning strategies without supervision on intermediate steps and execute them latently, within a single forward pass. Using graph path-finding tasks that precisely control the number of required latent planning steps, we uncover a striking limitation unresolved by massive scaling: tiny transformers trained from scratch discover strategies requiring up to three latent steps, fine-tuned GPT-4o and Qwen3-32B reach five, and GPT-5.4 attains seven under few-shot prompting. Although the maximum latent planning depth models can learn during training is five, the discovered strategy generalizes up to eight latent steps at test-time. This reveals a dissociation between the ability to discover a latent strategy under final-answer supervision alone and the ability to execute it once discovered. If similar limits hold more broadly, strategies requiring multiple coordinated latent planning steps may need to be explicitly taught or externalized, lending credence to CoT monitoring.

Le Plafond de Profondeur : Sur les Limites des Grands Modèles de Langage dans la Découverte de Planification Latente

The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning

Résumé

Support