REPOT: Programa de Pensamento Recuperável via Reparo de Ponto de Verificação

Resumo

A Programação-de-Pensamento (PoT) de uma única tentativa gera um programa Python que imprime um plano de ações primitivas; uma única ação inválida invalida silenciosamente a trajetória. Apresentamos o RePoT (PoT Recuperável): uma repetição verificada determinística que percorre o plano no ambiente até sua primeira transição inválida e, em seguida, realiza uma chamada ao LLM que retoma a partir do prefixo verificado. O RePoT custa no máximo uma chamada extra ao LLM nos ~14% dos problemas em que o PoT falha. O RePoT supera o PoT em +3 a +11 pontos percentuais em quatro configurações de modelo fechado no PuzzleZoo-775 e atinge um pico de 96,9% contra 86,3% no gpt-5.4-mini-medium; contra a linha de base de repetição do PoT com orçamento equivalente, o RePoT vence de forma decisiva no Gemini (+3,8 pp, IC 95% [+2,2;+5,4]), fica dentro do ruído amostral no GPT-medium e no Claude, e perde no GPT-mini — um padrão de escalonamento de capacidade que começamos a abordar com o RePoT Adaptativo, um despachante baseado em regras que direciona entre reparo de sufixo e uma repetição nova do PoT com base no comprimento do prefixo verificado (preliminar). Reproduzimos os resultados no PlanBench Blocksworld (+1,1 a +11,4 pp) e em quatro modelos de pesos abertos (+3,3 a +20,0 pp em três dos quatro). No Derail-550, nosso referencial de recuperação controlada, toda condição com acesso a informações de ponto de verificação atinge >=30% no GPT-medium e >=70% no Gemini, contra <=3,1% para feedback apenas de erro — mostrando que a informação de ponto de verificação, e não a cauda específica do prefixo verificado, é o sinal de recuperação essencial.

English

One-shot Program-of-Thought (PoT) emits a Python program that prints a primitive-action plan; a single invalid action silently invalidates the trajectory. We introduce RePoT (Recoverable PoT): a deterministic verified replay that walks the plan through the environment to its first invalid transition, then one LLM call that resumes from the verified prefix. RePoT costs at most one extra LLM call on the ~14% of problems where PoT fails. RePoT beats PoT by +3 to +11pp across four closed-model configurations on PuzzleZoo-775 and peaks at 96.9% vs 86.3% on gpt-5.4-mini-medium; against the matched-budget PoT-retry baseline, RePoT wins decisively on Gemini (+3.8pp, 95% CI [+2.2,+5.4]), is within sampling noise on GPT-medium and Claude, and loses on GPT-mini -- a capability-scaling pattern we begin to address with Adaptive RePoT, a rule-based dispatcher that routes between suffix repair and a fresh PoT retry based on verified-prefix length (preliminary). We replicate on PlanBench Blocksworld (+1.1 to +11.4pp) and on four open-weights models (+3.3 to +20.0pp on three of four). On Derail-550, our controlled recovery benchmark, every condition with access to checkpoint information clears >=30% on GPT-medium and >=70% on Gemini, vs <=3.1% for error-only feedback -- showing that checkpoint information, not the specific verified-prefix tail, is the load-bearing recovery signal.