Érase una vez una entrada: Razonamiento mediante síntesis de programas por instancia.

Resumen

Los grandes modelos de lenguaje (LLMs) sobresalen en inferencia zero-shot pero continúan teniendo dificultades con el razonamiento complejo y multi-etapa. Métodos recientes que aumentan los LLMs con pasos de razonamiento intermedios, como Cadena de Pensamiento (CoT) y Programa de Pensamiento (PoT), mejoran el rendimiento pero a menudo producen soluciones indeseables, especialmente en dominios algorítmicos. Presentamos Síntesis de Programas por Instancia (PIPS), un método que genera y refina programas a nivel de instancia utilizando retroalimentación estructural, sin depender de guías específicas de la tarea ni casos de prueba explícitos. Para mejorar aún más el rendimiento, PIPS incorpora una métrica de confianza que elige dinámicamente entre la inferencia directa y la síntesis de programas en función de cada instancia. Los experimentos realizados en tres LLMs de vanguardia y 30 benchmarks, incluyendo todas las tareas de Big Bench Extra Hard (BBEH), tareas de respuesta visual a preguntas, tareas de razonamiento relacional y tareas de razonamiento matemático, muestran que PIPS mejora la precisión media armónica absoluta hasta en un 8.6% y un 9.4% en comparación con PoT y CoT respectivamente, y reduce las generaciones de programas indeseables en un 65.1% en las tareas algorítmicas en comparación con PoT utilizando Gemini-2.0-Flash.

English

Large language models (LLMs) excel at zero-shot inference but continue to struggle with complex, multi-step reasoning. Recent methods that augment LLMs with intermediate reasoning steps such as Chain of Thought (CoT) and Program of Thought (PoT) improve performance but often produce undesirable solutions, especially in algorithmic domains. We introduce Per-Instance Program Synthesis (PIPS), a method that generates and refines programs at the instance-level using structural feedback without relying on task-specific guidance or explicit test cases. To further improve performance, PIPS incorporates a confidence metric that dynamically chooses between direct inference and program synthesis on a per-instance basis. Experiments across three frontier LLMs and 30 benchmarks including all tasks of Big Bench Extra Hard (BBEH), visual question answering tasks, relational reasoning tasks, and mathematical reasoning tasks show that PIPS improves the absolute harmonic mean accuracy by up to 8.6% and 9.4% compared to PoT and CoT respectively, and reduces undesirable program generations by 65.1% on the algorithmic tasks compared to PoT with Gemini-2.0-Flash.

Érase una vez una entrada: Razonamiento mediante síntesis de programas por instancia.

Once Upon an Input: Reasoning via Per-Instance Program Synthesis

Resumen

Support