REPOT: Herstelbaar Program-of-Thought via Checkpointherstel

Samenvatting

One-shot Program-of-Thought (PoT) genereert een Python-programma dat een plan van primitieve acties uitprint; één enkele ongeldige actie maakt het traject ongemerkt ongeldig. We introduceren RePoT (Recoverable PoT): een deterministische geverifieerde herhaling die het plan door de omgeving uitvoert tot de eerste ongeldige overgang, gevolgd door één LLM-aanroep die hervat vanaf het geverifieerde voorvoegsel. RePoT kost maximaal één extra LLM-aanroep op de ~14% van de problemen waar PoT faalt. RePoT verslaat PoT met +3 tot +11 procentpunt over vier closed-model configuraties op PuzzleZoo-775 en bereikt een piek van 96,9% tegenover 86,3% op gpt-5.4-mini-medium; tegen de matched-budget PoT-retry-baseline wint RePoT overtuigend op Gemini (+3,8 pp, 95% BI [+2,2,+5,4]), valt het binnen steekproefruis op GPT-medium en Claude, en verliest het op GPT-mini – een capaciteitsschalingspatroon dat we beginnen aan te pakken met Adaptive RePoT, een op regels gebaseerde dispatcher die routeert tussen suffixreparatie en een nieuwe PoT-poging op basis van de lengte van het geverifieerde voorvoegsel (voorlopig). We repliceren op PlanBench Blocksworld (+1,1 tot +11,4 pp) en op vier open-weights modellen (+3,3 tot +20,0 pp op drie van de vier). Op Derail-550, onze gecontroleerde herstelbenchmark, haalt elke conditie met toegang tot checkpointinformatie >=30% op GPT-medium en >=70% op Gemini, tegenover <=3,1% voor alleen foutfeedback – wat aantoont dat checkpointinformatie, niet de specifieke geverifieerde voorvoegselstaart, het dragende herstelsignaal is.

English

One-shot Program-of-Thought (PoT) emits a Python program that prints a primitive-action plan; a single invalid action silently invalidates the trajectory. We introduce RePoT (Recoverable PoT): a deterministic verified replay that walks the plan through the environment to its first invalid transition, then one LLM call that resumes from the verified prefix. RePoT costs at most one extra LLM call on the ~14% of problems where PoT fails. RePoT beats PoT by +3 to +11pp across four closed-model configurations on PuzzleZoo-775 and peaks at 96.9% vs 86.3% on gpt-5.4-mini-medium; against the matched-budget PoT-retry baseline, RePoT wins decisively on Gemini (+3.8pp, 95% CI [+2.2,+5.4]), is within sampling noise on GPT-medium and Claude, and loses on GPT-mini -- a capability-scaling pattern we begin to address with Adaptive RePoT, a rule-based dispatcher that routes between suffix repair and a fresh PoT retry based on verified-prefix length (preliminary). We replicate on PlanBench Blocksworld (+1.1 to +11.4pp) and on four open-weights models (+3.3 to +20.0pp on three of four). On Derail-550, our controlled recovery benchmark, every condition with access to checkpoint information clears >=30% on GPT-medium and >=70% on Gemini, vs <=3.1% for error-only feedback -- showing that checkpoint information, not the specific verified-prefix tail, is the load-bearing recovery signal.