Era Uma Vez uma Entrada: Raciocínio via Síntese de Programa por Instância
Once Upon an Input: Reasoning via Per-Instance Program Synthesis
October 26, 2025
Autores: Adam Stein, Neelay Velingker, Mayur Naik, Eric Wong
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) destacam-se na inferência *zero-shot*, mas continuam a ter dificuldades com raciocínios complexos e de múltiplos passos. Métodos recentes que aumentam os LLMs com passos de raciocínio intermédios, como a *Chain of Thought* (CoT) e a *Program of Thought* (PoT), melhoram o desempenho, mas frequentemente produzem soluções indesejadas, especialmente em domínios algorítmicos. Apresentamos a Síntese de Programas por Instância (PIPS), um método que gera e refina programas ao nível da instância, utilizando *feedback* estrutural sem depender de orientação específica da tarefa ou de casos de teste explícitos. Para melhorar ainda mais o desempenho, o PIPS incorpora uma métrica de confiança que escolhe dinamicamente entre a inferência direta e a síntese de programas numa base por instância. Experiências realizadas em três LLMs de ponta e 30 *benchmarks*, incluindo todas as tarefas do *Big Bench Extra Hard* (BBEH), tarefas de resposta a questões visuais, tarefas de raciocínio relacional e tarefas de raciocínio matemático, mostram que o PIPS melhora a precisão média harmónica absoluta em até 8,6% e 9,4% em comparação com PoT e CoT, respetivamente, e reduz as gerações de programas indesejáveis em 65,1% nas tarefas algorítmicas em comparação com PoT usando o Gemini-2.0-Flash.
English
Large language models (LLMs) excel at zero-shot inference but continue to
struggle with complex, multi-step reasoning. Recent methods that augment LLMs
with intermediate reasoning steps such as Chain of Thought (CoT) and Program of
Thought (PoT) improve performance but often produce undesirable solutions,
especially in algorithmic domains. We introduce Per-Instance Program Synthesis
(PIPS), a method that generates and refines programs at the instance-level
using structural feedback without relying on task-specific guidance or explicit
test cases. To further improve performance, PIPS incorporates a confidence
metric that dynamically chooses between direct inference and program synthesis
on a per-instance basis. Experiments across three frontier LLMs and 30
benchmarks including all tasks of Big Bench Extra Hard (BBEH), visual question
answering tasks, relational reasoning tasks, and mathematical reasoning tasks
show that PIPS improves the absolute harmonic mean accuracy by up to 8.6% and
9.4% compared to PoT and CoT respectively, and reduces undesirable program
generations by 65.1% on the algorithmic tasks compared to PoT with
Gemini-2.0-Flash.