Er was eens een invoer: redeneren via programmasynthese per instantie
Once Upon an Input: Reasoning via Per-Instance Program Synthesis
October 26, 2025
Auteurs: Adam Stein, Neelay Velingker, Mayur Naik, Eric Wong
cs.AI
Samenvatting
Grote taalmodellen (LLM's) blinken uit in zero-shot inferentie maar blijven moeite houden met complexe, meerstaps redenering. Recente methoden die LLM's verrijken met tussenliggende redeneerstappen, zoals Chain of Thought (CoT) en Program of Thought (PoT), verbeteren de prestaties maar produceren vaak ongewenste oplossingen, vooral in algoritmische domeinen. Wij introduceren Per-Instance Program Synthesis (PIPS), een methode die programma's op instantieniveau genereert en verfijnt met behulp van structurele feedback, zonder te vertrouwen op taakspecifieke richtlijnen of expliciete testgevallen. Om de prestaties verder te verbeteren, integreert PIPS een betrouwbaarheidsmetriek die dynamisch kiest tussen directe inferentie en programsynthese op basis van elke individuele instantie. Experimenten met drie vooraanstaande LLM's en 30 benchmarks – inclusief alle taken van Big Bench Extra Hard (BBEH), visuele vraag-antwoordtaken, relationele redeneertaken en wiskundige redeneertaken – tonen aan dat PIPS de absolute harmonische gemiddelde nauwkeurigheid met respectievelijk tot 8,6% en 9,4% verbetert ten opzichte van PoT en CoT, en de ongewenste programma-generaties met 65,1% reduceert op de algoritmische taken in vergelijking met PoT bij gebruik van Gemini-2.0-Flash.
English
Large language models (LLMs) excel at zero-shot inference but continue to
struggle with complex, multi-step reasoning. Recent methods that augment LLMs
with intermediate reasoning steps such as Chain of Thought (CoT) and Program of
Thought (PoT) improve performance but often produce undesirable solutions,
especially in algorithmic domains. We introduce Per-Instance Program Synthesis
(PIPS), a method that generates and refines programs at the instance-level
using structural feedback without relying on task-specific guidance or explicit
test cases. To further improve performance, PIPS incorporates a confidence
metric that dynamically chooses between direct inference and program synthesis
on a per-instance basis. Experiments across three frontier LLMs and 30
benchmarks including all tasks of Big Bench Extra Hard (BBEH), visual question
answering tasks, relational reasoning tasks, and mathematical reasoning tasks
show that PIPS improves the absolute harmonic mean accuracy by up to 8.6% and
9.4% compared to PoT and CoT respectively, and reduces undesirable program
generations by 65.1% on the algorithmic tasks compared to PoT with
Gemini-2.0-Flash.