REPOT : Programme de Pensée Récupérable via Réparation de Points de Contrôle

Résumé

La méthode Program-of-Thought (PoT) en un seul appel génère un programme Python qui affiche un plan d'actions primitives ; une seule action invalide invalide silencieusement la trajectoire. Nous introduisons RePoT (Recoverable PoT) : une relecture vérifiée déterministe qui parcourt le plan dans l'environnement jusqu'à sa première transition invalide, puis un unique appel LLM qui reprend à partir du préfixe vérifié. RePoT coûte au plus un appel LLM supplémentaire sur les ~14 % de problèmes où PoT échoue. RePoT surpasse PoT de +3 à +11 points de pourcentage sur quatre configurations de modèles fermés avec PuzzleZoo-775, et atteint un pic de 96,9 % contre 86,3 % avec gpt-5.4-mini-medium ; par rapport à la référence PoT-retry à budget égal, RePoT gagne nettement sur Gemini (+3,8 pp, IC à 95 % [+2,2 ; +5,4]), se situe dans le bruit d'échantillonnage sur GPT-medium et Claude, et perd sur GPT-mini — un schéma de mise à l'échelle des capacités que nous commençons à traiter avec Adaptive RePoT, un dispatcheur basé sur des règles qui oriente entre la réparation du suffixe et une nouvelle tentative PoT complète en fonction de la longueur du préfixe vérifié (résultats préliminaires). Nous reproduisons ces résultats sur PlanBench Blocksworld (+1,1 à +11,4 pp) et sur quatre modèles à poids ouverts (+3,3 à +20,0 pp sur trois des quatre). Sur Derail-550, notre benchmark de récupération contrôlée, toutes les conditions ayant accès aux informations de point de contrôle atteignent >=30 % sur GPT-medium et >=70 % sur Gemini, contre <=3,1 % pour le retour d'erreur seul — ce qui montre que l'information de point de contrôle, et non la spécificité du suffixe du préfixe vérifié, est le signal de récupération déterminant.

English

One-shot Program-of-Thought (PoT) emits a Python program that prints a primitive-action plan; a single invalid action silently invalidates the trajectory. We introduce RePoT (Recoverable PoT): a deterministic verified replay that walks the plan through the environment to its first invalid transition, then one LLM call that resumes from the verified prefix. RePoT costs at most one extra LLM call on the ~14% of problems where PoT fails. RePoT beats PoT by +3 to +11pp across four closed-model configurations on PuzzleZoo-775 and peaks at 96.9% vs 86.3% on gpt-5.4-mini-medium; against the matched-budget PoT-retry baseline, RePoT wins decisively on Gemini (+3.8pp, 95% CI [+2.2,+5.4]), is within sampling noise on GPT-medium and Claude, and loses on GPT-mini -- a capability-scaling pattern we begin to address with Adaptive RePoT, a rule-based dispatcher that routes between suffix repair and a fresh PoT retry based on verified-prefix length (preliminary). We replicate on PlanBench Blocksworld (+1.1 to +11.4pp) and on four open-weights models (+3.3 to +20.0pp on three of four). On Derail-550, our controlled recovery benchmark, every condition with access to checkpoint information clears >=30% on GPT-medium and >=70% on Gemini, vs <=3.1% for error-only feedback -- showing that checkpoint information, not the specific verified-prefix tail, is the load-bearing recovery signal.