REPOT: Wiederherstellbares Program-of-Thought durch Prüfpunkt-Reparatur

Zusammenfassung

Ein One-Shot-Program-of-Thought (PoT) erzeugt ein Python-Programm, das einen Plan mit primitiven Aktionen ausgibt; eine einzige ungültige Aktion macht die Trajektorie stillschweigend ungültig. Wir stellen RePoT (Recoverable PoT) vor: eine deterministische verifizierte Wiederholung, die den Plan durch die Umgebung bis zu seinem ersten ungültigen Übergang durchläuft, gefolgt von einem einzigen LLM-Aufruf, der ab dem verifizierten Präfix fortfährt. RePoT kostet bei den ~14 % der Probleme, bei denen PoT scheitert, maximal einen zusätzlichen LLM-Aufruf. RePoT übertrifft PoT in vier Closed-Model-Konfigurationen auf PuzzleZoo-775 um +3 bis +11 Prozentpunkte und erreicht mit gpt-5.4-mini-medium einen Spitzenwert von 96,9 % gegenüber 86,3 %; gegen die matched-budget PoT-Retry-Baseline gewinnt RePoT bei Gemini deutlich (+3,8 pp, 95 %-KI [+2,2; +5,4]), liegt bei GPT-medium und Claude innerhalb der Stichprobenvarianz und verliert bei GPT-mini – ein Fähigkeitsskalierungsmuster, das wir mit Adaptive RePoT ansatzweise adressieren, einem regelbasierten Dispatcher, der basierend auf der Länge des verifizierten Präfix zwischen der Reparatur des Suffix und einem neuen PoT-Versuch (vorläufig) entscheidet. Wir replizieren die Ergebnisse auf PlanBench Blocksworld (+1,1 bis +11,4 pp) und auf vier Open-Weights-Modellen (+3,3 bis +20,0 pp bei drei von vier). Auf Derail-550, unserem kontrollierten Wiederherstellungs-Benchmark, erzielen alle Bedingungen mit Zugriff auf Checkpoint-Informationen auf GPT-medium ≥30 % und auf Gemini ≥70 %, während reines Fehler-Feedback ≤3,1 % erreicht – was zeigt, dass Checkpoint-Informationen und nicht das spezifische verifizierte Präfix-Ende das tragende Wiederherstellungssignal sind.

English

One-shot Program-of-Thought (PoT) emits a Python program that prints a primitive-action plan; a single invalid action silently invalidates the trajectory. We introduce RePoT (Recoverable PoT): a deterministic verified replay that walks the plan through the environment to its first invalid transition, then one LLM call that resumes from the verified prefix. RePoT costs at most one extra LLM call on the ~14% of problems where PoT fails. RePoT beats PoT by +3 to +11pp across four closed-model configurations on PuzzleZoo-775 and peaks at 96.9% vs 86.3% on gpt-5.4-mini-medium; against the matched-budget PoT-retry baseline, RePoT wins decisively on Gemini (+3.8pp, 95% CI [+2.2,+5.4]), is within sampling noise on GPT-medium and Claude, and loses on GPT-mini -- a capability-scaling pattern we begin to address with Adaptive RePoT, a rule-based dispatcher that routes between suffix repair and a fresh PoT retry based on verified-prefix length (preliminary). We replicate on PlanBench Blocksworld (+1.1 to +11.4pp) and on four open-weights models (+3.3 to +20.0pp on three of four). On Derail-550, our controlled recovery benchmark, every condition with access to checkpoint information clears >=30% on GPT-medium and >=70% on Gemini, vs <=3.1% for error-only feedback -- showing that checkpoint information, not the specific verified-prefix tail, is the load-bearing recovery signal.