Отсутствие глобального плана в цепочке рассуждений: раскрытие латентного горизонта планирования у больших языковых моделей
No Global Plan in Chain-of-Thought: Uncover the Latent Planning Horizon of LLMs
February 2, 2026
Авторы: Liyan Xu, Mo Yu, Fandong Meng, Jie Zhou
cs.AI
Аннотация
Данная работа основана на предыдущих взаимодополняющих наблюдениях за динамикой цепочки мыслей (CoT): крупные языковые модели (LLM) демонстрируют латентное планирование последующих рассуждений до появления явной CoT, что снижает значимость явной цепочки; однако CoT остается критически важной для задач, требующих многошаговых рассуждений. Для углубления понимания взаимосвязи между внутренними состояниями LLM и их вербализованными траекториями рассуждений мы исследуем силу латентного планирования в LLM с помощью нашего метода probing — Tele-Lens, применяемого к скрытым состояниям в различных предметных областях. Наши эмпирические результаты показывают, что LLM демонстрируют миопический горизонт, в основном осуществляя инкрементальные переходы без точного глобального планирования. Используя эту характеристику, мы выдвигаем гипотезу об улучшении оценки неопределенности CoT и подтверждаем, что небольшое подмножество позиций в CoT может эффективно представлять неопределенность всего пути. Мы также подчеркиваем важность использования динамики CoT и демонстрируем, что автоматическое распознавание обходных путей в CoT может быть достигнуто без снижения производительности. Наш код, данные и модели доступны по адресу https://github.com/lxucs/tele-lens.
English
This work stems from prior complementary observations on the dynamics of Chain-of-Thought (CoT): Large Language Models (LLMs) is shown latent planning of subsequent reasoning prior to CoT emergence, thereby diminishing the significance of explicit CoT; whereas CoT remains critical for tasks requiring multi-step reasoning. To deepen the understanding between LLM's internal states and its verbalized reasoning trajectories, we investigate the latent planning strength of LLMs, through our probing method, Tele-Lens, applying to hidden states across diverse task domains. Our empirical results indicate that LLMs exhibit a myopic horizon, primarily conducting incremental transitions without precise global planning. Leveraging this characteristic, we propose a hypothesis on enhancing uncertainty estimation of CoT, which we validate that a small subset of CoT positions can effectively represent the uncertainty of the entire path. We further underscore the significance of exploiting CoT dynamics, and demonstrate that automatic recognition of CoT bypass can be achieved without performance degradation. Our code, data and models are released at https://github.com/lxucs/tele-lens.