Планы непостоянны: почему управление контекстом является несущим элементом для агентов на основе LLM

Аннотация

Агенты с длительным горизонтом зависят от управления контекстом: системы сжимают, обобщают и вытесняют старые токены, чтобы задачи могли продолжаться за пределами конечных окон. Это безопасно только тогда, когда отбрасываемая информация больше не нужна или была интернализована. Планы представляют собой критический случай: они создаются рано, используются на многих шагах и первыми вытесняются. Мы вводим парное воспроизведение — диагностический метод, который запускает одну и ту же траекторию с планом в истории и без него и измеряет косинусное расстояние скрытого состояния. Для Llama-3.1-70B сигнал плана возрастает до 0,453 на один шаг после плана, затем падает в 4,1 раза за один шаг действия-наблюдения; для HotpotQA падает в 12,4 раза. Это свидетельствует о том, что стандартные LLM-агенты не переносят планы вперед как постоянное состояние, а вместо этого зависят от того, что план остается в контексте. Зонд на слое L32 обнаруживает это затухание как диагностический признак, а не как доказательство того, что он сам считывает содержание плана. Модели рассуждений добавляют измерительный искажающий фактор: их трассировки `<think>` заново выводят содержание плана, поэтому стандартное удаление оставляет свидетельства плана в условии с удалением. Мы называем это искажающим фактором трассировки рассуждений и исправляем его с помощью строгого удаления, которое удаляет предыдущие блоки `<think>` только из прогона с удалением. Это восстанавливает +163% сигнала шага+1 на выборке и +153% на отложенных данных, при этом не меняя значительно Llama без рассуждений (+4,8%). На DeepSeek-R1-Distill-Llama-70B зонд, обученный на Llama, переносится с AUROC 0,748 (p=6e-4), в то время как специфичные для R1 зонды достигают 1,000, что предполагает, что R1 кодирует сигнал плана в другом направлении скрытого состояния. Наконец, стресс-тест сжатия показывает практическую цену: наивное вытеснение плана снижает успешность на ALFWorld на 34,7 процентных пункта, в то время как повторное появление с использованием зонда не восстанавливает ее. Вклад заключается в создании измерительной и стресс-тестовой платформы, показывающей, что критически важная для агента информация может находиться в контексте, а не быть постоянной. Управление контекстом является несущей конструкцией, но одной лишь защиты плана недостаточно.

English

Long-horizon agents depend on context management: systems compress, summarize, and evict old tokens so tasks can continue beyond finite windows. That is safe only when dropped information is no longer needed or has been internalized. Plans are the stress case: they are written early, used for many steps, and first to be evicted. We introduce replay pairing, a diagnostic that runs the same trajectory with and without the plan in history and measures hidden-state cosine distance. On Llama-3.1-70B, plan signal spikes to 0.453 one step after the plan, then falls 4.1x in a single action-observation step; HotpotQA falls 12.4x. This is evidence that standard LLM agents do not carry plans forward as persistent state, and instead depend on the plan remaining in context. A layer-L32 probe detects this decay as a diagnostic, not as proof that it reads plan content itself. Reasoning models add a measurement confound: their `<think>` traces re-derive plan content, so standard stripping leaves plan evidence in the stripped condition. We name this the reasoning-trace confound and fix it with strict stripping, which removes prior `<think>` blocks from the stripped run only. It recovers +163% of the step+1 signal in-sample and +153% held out, while not meaningfully changing non-reasoning Llama (+4.8%). On DeepSeek-R1-Distill-Llama-70B, a Llama-trained probe transfers at AUROC 0.748 (p=6e-4), while R1-specific probes reach 1.000, suggesting R1 encodes plan signal in a different hidden-state direction. Finally, a compression stress test shows the practical cost: naive plan eviction cuts ALFWorld success by 34.7pp, while probe-gated re-surfacing does not recover it. The contribution is a measurement and stress-test framework showing that agent-critical information can be context-resident rather than persistent. Context management is load bearing, but plan protection alone is not enough.