REPOT: Восстанавливаемая программа-рассуждение с помощью восстановления контрольных точек

Аннотация

Одноразовая программа-мыслей (Program-of-Thought, PoT) генерирует программу на Python, которая выводит план примитивных действий; одно недопустимое действие молча делает всю траекторию недействительной. Мы представляем RePoT (Recoverable PoT — восстанавливаемая PoT): детерминированный верифицированный повтор, который пошагово выполняет план в среде до первого недопустимого перехода, после чего следует один вызов LLM, возобновляющий выполнение с верифицированного префикса. RePoT требует не более одного дополнительного вызова LLM на ~14% задач, где PoT терпит неудачу. На четырех конфигурациях закрытых моделей на бенчмарке PuzzleZoo-775 RePoT превосходит PoT на +3–11 процентных пункта (п.п.), достигая максимума 96.9% против 86.3% на gpt-5.4-mini-medium; против базового метода PoT-retry с согласованным бюджетом RePoT решительно выигрывает на Gemini (+3.8 п.п., 95% ДИ [+2.2, +5.4]), находится в пределах шума выборки на GPT-medium и Claude и проигрывает на GPT-mini — паттерн масштабирования способностей, который мы начинаем решать с помощью Adaptive RePoT — диспетчера на основе правил, распределяющего между восстановлением суффикса и новым повтором PoT на основе длины верифицированного префикса (предварительные результаты). Мы воспроизводим результаты на PlanBench Blocksworld (+1.1–11.4 п.п.) и на четырех моделях с открытыми весами (+3.3–20.0 п.п. на трех из четырех). На нашем контролируемом бенчмарке для восстановления Derail-550 каждое условие с доступом к информации о контрольных точках достигает >=30% на GPT-medium и >=70% на Gemini, против <=3.1% для обратной связи только по ошибкам — что показывает, что именно информация о контрольных точках, а не конкретный хвост верифицированного префикса, является ключевым сигналом для восстановления.

English

One-shot Program-of-Thought (PoT) emits a Python program that prints a primitive-action plan; a single invalid action silently invalidates the trajectory. We introduce RePoT (Recoverable PoT): a deterministic verified replay that walks the plan through the environment to its first invalid transition, then one LLM call that resumes from the verified prefix. RePoT costs at most one extra LLM call on the ~14% of problems where PoT fails. RePoT beats PoT by +3 to +11pp across four closed-model configurations on PuzzleZoo-775 and peaks at 96.9% vs 86.3% on gpt-5.4-mini-medium; against the matched-budget PoT-retry baseline, RePoT wins decisively on Gemini (+3.8pp, 95% CI [+2.2,+5.4]), is within sampling noise on GPT-medium and Claude, and loses on GPT-mini -- a capability-scaling pattern we begin to address with Adaptive RePoT, a rule-based dispatcher that routes between suffix repair and a fresh PoT retry based on verified-prefix length (preliminary). We replicate on PlanBench Blocksworld (+1.1 to +11.4pp) and on four open-weights models (+3.3 to +20.0pp on three of four). On Derail-550, our controlled recovery benchmark, every condition with access to checkpoint information clears >=30% on GPT-medium and >=70% on Gemini, vs <=3.1% for error-only feedback -- showing that checkpoint information, not the specific verified-prefix tail, is the load-bearing recovery signal.