REPOT: Programa de Pensamiento Recuperable mediante Reparación de Checkpoints

Resumen

Program-of-Thought (PoT) de un solo disparo genera un programa de Python que imprime un plan de acciones primitivas; una única acción inválida invalida silenciosamente la trayectoria. Introducimos RePoT (PoT Recuperable): una repetición determinista verificada que recorre el plan a través del entorno hasta su primera transición inválida, luego una sola llamada al LLM que retoma desde el prefijo verificado. RePoT cuesta como máximo una llamada adicional al LLM en aproximadamente el 14% de los problemas donde PoT falla. RePoT supera a PoT entre +3 y +11 puntos porcentuales en cuatro configuraciones de modelos cerrados en PuzzleZoo-775 y alcanza un máximo de 96.9% frente a 86.3% en gpt-5.4-mini-medium; frente a la línea base de reintento PoT con presupuesto equivalente, RePoT gana de manera decisiva en Gemini (+3.8pp, IC 95% [+2.2,+5.4]), está dentro del ruido de muestreo en GPT-medium y Claude, y pierde en GPT-mini — un patrón de escalamiento de capacidades que comenzamos a abordar con RePoT Adaptativo, un despachador basado en reglas que enruta entre la reparación del sufijo y un reintento PoT fresco según la longitud del prefijo verificado (preliminar). Replicamos en PlanBench Blocksworld (+1.1 a +11.4pp) y en cuatro modelos de pesos abiertos (+3.3 a +20.0pp en tres de cuatro). En Derail-550, nuestro punto de referencia de recuperación controlada, toda condición con acceso a información de punto de control supera >=30% en GPT-medium y >=70% en Gemini, frente a <=3.1% para retroalimentación solo de error — lo que demuestra que la información de punto de control, no la cola específica del prefijo verificado, es la señal de recuperación determinante.

English

One-shot Program-of-Thought (PoT) emits a Python program that prints a primitive-action plan; a single invalid action silently invalidates the trajectory. We introduce RePoT (Recoverable PoT): a deterministic verified replay that walks the plan through the environment to its first invalid transition, then one LLM call that resumes from the verified prefix. RePoT costs at most one extra LLM call on the ~14% of problems where PoT fails. RePoT beats PoT by +3 to +11pp across four closed-model configurations on PuzzleZoo-775 and peaks at 96.9% vs 86.3% on gpt-5.4-mini-medium; against the matched-budget PoT-retry baseline, RePoT wins decisively on Gemini (+3.8pp, 95% CI [+2.2,+5.4]), is within sampling noise on GPT-medium and Claude, and loses on GPT-mini -- a capability-scaling pattern we begin to address with Adaptive RePoT, a rule-based dispatcher that routes between suffix repair and a fresh PoT retry based on verified-prefix length (preliminary). We replicate on PlanBench Blocksworld (+1.1 to +11.4pp) and on four open-weights models (+3.3 to +20.0pp on three of four). On Derail-550, our controlled recovery benchmark, every condition with access to checkpoint information clears >=30% on GPT-medium and >=70% on Gemini, vs <=3.1% for error-only feedback -- showing that checkpoint information, not the specific verified-prefix tail, is the load-bearing recovery signal.