입력이 주어지면: 인스턴스별 프로그램 합성을 통한 추론
Once Upon an Input: Reasoning via Per-Instance Program Synthesis
October 26, 2025
저자: Adam Stein, Neelay Velingker, Mayur Naik, Eric Wong
cs.AI
초록
대규모 언어 모델(LLM)은 제로샷 추론에서 뛰어난 성능을 보이지만 복잡한 다단계 추론에는 여전히 어려움을 겪고 있습니다. Chain of Thought(CoT) 및 Program of Thought(PoT)와 같은 중간 추론 단계를 추가하는 최근 방법들은 성능을 향상시키지만, 특히 알고리즘 분야에서 바람직하지 않은 해결책을 생성하는 경우가 많습니다. 본 연구에서는 작업별 지도나 명시적인 테스트 케이스에 의존하지 않고 구조적 피드백을 통해 인스턴스 수준에서 프로그램을 생성 및 정제하는 Per-Instance Program Synthesis(PIPS) 방법을 소개합니다. 성능을 더욱 향상시키기 위해 PIPS는 인스턴스별로 직접 추론과 프로그램 합성 중 동적으로 선택하는 신뢰도 지표를 통합합니다. 3개의 최신 LLM과 Big Bench Extra Hard(BBEH)의 모든 과제, 시각 질의응답 과제, 관계 추론 과제, 수학적 추론 과제를 포함한 30개 벤치마크에 대한 실험 결과, PIPS는 PoT 및 CoT 대비 절대 조화평균 정확도를 각각 최대 8.6%, 9.4% 향상시키며, Gemini-2.0-Flash를 사용한 알고리즘 과제에서 PoT 대비 바람직하지 않은 프로그램 생성을 65.1% 감소시키는 것으로 나타났습니다.
English
Large language models (LLMs) excel at zero-shot inference but continue to
struggle with complex, multi-step reasoning. Recent methods that augment LLMs
with intermediate reasoning steps such as Chain of Thought (CoT) and Program of
Thought (PoT) improve performance but often produce undesirable solutions,
especially in algorithmic domains. We introduce Per-Instance Program Synthesis
(PIPS), a method that generates and refines programs at the instance-level
using structural feedback without relying on task-specific guidance or explicit
test cases. To further improve performance, PIPS incorporates a confidence
metric that dynamically chooses between direct inference and program synthesis
on a per-instance basis. Experiments across three frontier LLMs and 30
benchmarks including all tasks of Big Bench Extra Hard (BBEH), visual question
answering tasks, relational reasoning tasks, and mathematical reasoning tasks
show that PIPS improves the absolute harmonic mean accuracy by up to 8.6% and
9.4% compared to PoT and CoT respectively, and reduces undesirable program
generations by 65.1% on the algorithmic tasks compared to PoT with
Gemini-2.0-Flash.