Однажды на входе: рассуждение через синтез программ для каждого экземпляра
Once Upon an Input: Reasoning via Per-Instance Program Synthesis
October 26, 2025
Авторы: Adam Stein, Neelay Velingker, Mayur Naik, Eric Wong
cs.AI
Аннотация
Крупные языковые модели (LLM) превосходно справляются с выводом в условиях zero-shot, но продолжают испытывать трудности со сложными, многошаговыми рассуждениями. Современные методы, такие как Цепочка мыслей (CoT) и Программа мыслей (PoT), которые дополняют LLM промежуточными шагами рассуждений, улучшают производительность, но часто порождают нежелательные решения, особенно в алгоритмических областях. Мы представляем метод Синтеза программ для каждого экземпляра (Per-Instance Program Synthesis, PIPS), который генерирует и улучшает программы на уровне отдельного экземпляра, используя структурную обратную связь без опоры на специфичные для задачи указания или явные тестовые случаи. Для дальнейшего повышения производительности PIPS включает метрику уверенности, которая динамически выбирает между прямым выводом и синтезом программы для каждого отдельного экземпляра. Эксперименты на трех передовых LLM и 30 бенчмарках, включая все задачи Big Bench Extra Hard (BBEH), задачи визуального ответа на вопросы, задачи реляционных рассуждений и задачи математических рассуждений, показывают, что PIPS улучшает абсолютное среднее гармоническое точности до 8,6% и 9,4% по сравнению с PoT и CoT соответственно, и сокращает генерацию нежелательных программ на 65,1% в алгоритмических задачах по сравнению с PoT при использовании Gemini-2.0-Flash.
English
Large language models (LLMs) excel at zero-shot inference but continue to
struggle with complex, multi-step reasoning. Recent methods that augment LLMs
with intermediate reasoning steps such as Chain of Thought (CoT) and Program of
Thought (PoT) improve performance but often produce undesirable solutions,
especially in algorithmic domains. We introduce Per-Instance Program Synthesis
(PIPS), a method that generates and refines programs at the instance-level
using structural feedback without relying on task-specific guidance or explicit
test cases. To further improve performance, PIPS incorporates a confidence
metric that dynamically chooses between direct inference and program synthesis
on a per-instance basis. Experiments across three frontier LLMs and 30
benchmarks including all tasks of Big Bench Extra Hard (BBEH), visual question
answering tasks, relational reasoning tasks, and mathematical reasoning tasks
show that PIPS improves the absolute harmonic mean accuracy by up to 8.6% and
9.4% compared to PoT and CoT respectively, and reduces undesirable program
generations by 65.1% on the algorithmic tasks compared to PoT with
Gemini-2.0-Flash.