Потолок глубины: о пределах возможностей больших языковых моделей в обнаружении скрытого планирования

Аннотация

Жизнеспособность мониторинга цепочки рассуждений (CoT) зависит от неспособности моделей эффективно рассуждать в своих латентных представлениях. Однако о пределах таких латентных рассуждений в больших языковых моделях (LLM) известно мало. Мы исследуем эти пределы, изучая, могут ли модели самостоятельно обнаруживать многошаговые стратегии планирования без контроля над промежуточными шагами и выполнять их латентно, в рамках единого прямого прохода. Используя задачи поиска путей на графах, которые точно контролируют количество необходимых латентных шагов планирования, мы выявляем поразительное ограничение, не решаемое даже масштабным увеличением моделей: небольшие трансформеры, обученные с нуля, обнаруживают стратегии, требующие до трёх латентных шагов; дообученные GPT-4o и Qwen3-32B достигают пяти шагов, а GPT-5.4 — семи шагов при few-shot prompting. Хотя максимальная глубина латентного планирования, которую модели могут усвоить в процессе обучения, составляет пять шагов, обнаруженная стратегия обобщается до восьми латентных шагов на этапе тестирования. Это раскрывает диссоциацию между способностью обнаружить латентную стратегию при наличии только контроля по конечному ответу и способностью выполнить её после обнаружения. Если подобные ограничения окажутся более универсальными, стратегии, требующие множества скоординированных латентных шагов планирования, возможно, придётся явно обучать или экстернализировать, что придаёт доверия методу мониторинга CoT.

English

The viability of chain-of-thought (CoT) monitoring hinges on models being unable to reason effectively in their latent representations. Yet little is known about the limits of such latent reasoning in LLMs. We test these limits by studying whether models can discover multi-step planning strategies without supervision on intermediate steps and execute them latently, within a single forward pass. Using graph path-finding tasks that precisely control the number of required latent planning steps, we uncover a striking limitation unresolved by massive scaling: tiny transformers trained from scratch discover strategies requiring up to three latent steps, fine-tuned GPT-4o and Qwen3-32B reach five, and GPT-5.4 attains seven under few-shot prompting. Although the maximum latent planning depth models can learn during training is five, the discovered strategy generalizes up to eight latent steps at test-time. This reveals a dissociation between the ability to discover a latent strategy under final-answer supervision alone and the ability to execute it once discovered. If similar limits hold more broadly, strategies requiring multiple coordinated latent planning steps may need to be explicitly taught or externalized, lending credence to CoT monitoring.

Потолок глубины: о пределах возможностей больших языковых моделей в обнаружении скрытого планирования

The Depth Ceiling: On the Limits of Large Language Models in Discovering Latent Planning

Аннотация

Support