かつて入力があったところ:インスタンスごとのプログラム合成による推論
Once Upon an Input: Reasoning via Per-Instance Program Synthesis
October 26, 2025
著者: Adam Stein, Neelay Velingker, Mayur Naik, Eric Wong
cs.AI
要旨
大規模言語モデル(LLM)はゼロショット推論に優れる一方で、複雑な多段階の推論には依然として課題を抱えている。連鎖思考(CoT)やプログラム思考(PoT)といった、中間推論ステップでLLMを拡張する近年の手法は性能を向上させるが、特にアルゴリズム的領域では望ましくない解を生成することが多い。本論文では、タスク固有の指示や明示的なテストケースに依存せず、構造的フィードバックを用いてインスタンスレベルでプログラムを生成・改良する手法であるPer-Instance Program Synthesis(PIPS)を提案する。さらに性能を向上させるため、PIPSはインスタンスごとに直接推論とプログラム合成を動的に選択する信頼度指標を組み込んでいる。3つの先進的LLMと、Big Bench Extra Hard(BBEH)の全タスク、視覚質問応答タスク、関係推論タスク、数学的推論タスクを含む30のベンチマークによる実験では、PIPSがPoTやCoTと比較して絶対調和平均精度を最大でそれぞれ8.6%、9.4%向上させ、アルゴリズムタスクにおいてGemini-2.0-Flashを用いたPoTと比べて望ましくないプログラム生成を65.1%削減することを示した。
English
Large language models (LLMs) excel at zero-shot inference but continue to
struggle with complex, multi-step reasoning. Recent methods that augment LLMs
with intermediate reasoning steps such as Chain of Thought (CoT) and Program of
Thought (PoT) improve performance but often produce undesirable solutions,
especially in algorithmic domains. We introduce Per-Instance Program Synthesis
(PIPS), a method that generates and refines programs at the instance-level
using structural feedback without relying on task-specific guidance or explicit
test cases. To further improve performance, PIPS incorporates a confidence
metric that dynamically chooses between direct inference and program synthesis
on a per-instance basis. Experiments across three frontier LLMs and 30
benchmarks including all tasks of Big Bench Extra Hard (BBEH), visual question
answering tasks, relational reasoning tasks, and mathematical reasoning tasks
show that PIPS improves the absolute harmonic mean accuracy by up to 8.6% and
9.4% compared to PoT and CoT respectively, and reduces undesirable program
generations by 65.1% on the algorithmic tasks compared to PoT with
Gemini-2.0-Flash.