El Techo de Profundidad: Sobre los Límites de los Modelos de Lenguaje a Gran Escala en el Descubrimiento de Planificación Latente

Resumen

La viabilidad de la supervisión de la cadena de pensamiento (CoT) depende de que los modelos sean incapaces de razonar eficazmente en sus representaciones latentes. Sin embargo, se sabe poco sobre los límites de dicho razonamiento latente en los LLM. Ponemos a prueba estos límites estudiando si los modelos pueden descubrir estrategias de planificación multi-etapa sin supervisión en los pasos intermedios y ejecutarlas de forma latente, dentro de una única pasada hacia adelante. Utilizando tareas de búsqueda de caminos en grafos que controlan con precisión el número de pasos de planificación latente requeridos, descubrimos una limitación sorprendente no resuelta por el escalado masivo: los transformadores pequeños entrenados desde cero descubren estrategias que requieren hasta tres pasos latentes, los modelos GPT-4o y Qwen3-32B ajustados alcanzan cinco, y GPT-5.4 logra siete bajo *prompting* de pocos ejemplos. Aunque la profundidad máxima de planificación latente que los modelos pueden aprender durante el entrenamiento es de cinco, la estrategia descubierta se generaliza hasta ocho pasos latentes en el momento de la prueba. Esto revela una disociación entre la capacidad de descubrir una estrategia latente únicamente bajo supervisión de la respuesta final y la capacidad de ejecutarla una vez descubierta. Si límites similares se mantienen de manera más amplia, las estrategias que requieren múltiples pasos de planificación latente coordinados podrían necesitar ser enseñadas explícitamente o externalizadas, lo que da credibilidad a la supervisión CoT.

English

The viability of chain-of-thought (CoT) monitoring hinges on models being unable to reason effectively in their latent representations. Yet little is known about the limits of such latent reasoning in LLMs. We test these limits by studying whether models can discover multi-step planning strategies without supervision on intermediate steps and execute them latently, within a single forward pass. Using graph path-finding tasks that precisely control the number of required latent planning steps, we uncover a striking limitation unresolved by massive scaling: tiny transformers trained from scratch discover strategies requiring up to three latent steps, fine-tuned GPT-4o and Qwen3-32B reach five, and GPT-5.4 attains seven under few-shot prompting. Although the maximum latent planning depth models can learn during training is five, the discovered strategy generalizes up to eight latent steps at test-time. This reveals a dissociation between the ability to discover a latent strategy under final-answer supervision alone and the ability to execute it once discovered. If similar limits hold more broadly, strategies requiring multiple coordinated latent planning steps may need to be explicitly taught or externalized, lending credence to CoT monitoring.

El Techo de Profundidad: Sobre los Límites de los Modelos de Lenguaje a Gran Escala en el Descubrimiento de Planificación Latente

The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning

Resumen

Support