C'era una volta un input: ragionamento tramite sintesi di programmi per singola istanza

Abstract

I modelli linguistici di grandi dimensioni (LLM) eccellono nell'inferenza zero-shot ma continuano ad avere difficoltà con ragionamenti complessi e multi-step. I metodi recenti che potenziano gli LLM con passaggi di ragionamento intermedi, come la Catena del Pensiero (CoT) e il Programma del Pensiero (PoT), migliorano le prestazioni ma spesso producono soluzioni indesiderate, specialmente in domini algoritmici. Introduciamo la Sintesi di Programmi per Istanza (PIPS), un metodo che genera e perfeziona programmi a livello di istanza utilizzando feedback strutturale senza fare affidamento su linee guida specifiche per il compito o casi di test espliciti. Per migliorare ulteriormente le prestazioni, PIPS incorpora una metrica di confidenza che sceglie dinamicamente tra l'inferenza diretta e la sintesi di programmi su base per-istanza. Esperimenti condotti su tre LLM all'avanguardia e 30 benchmark, inclusi tutti i task del Big Bench Extra Hard (BBEH), task di visual question answering, task di ragionamento relazionale e task di ragionamento matematico, mostrano che PIPS migliora la precisione media armonica assoluta fino all'8,6% e al 9,4% rispetto rispettivamente a PoT e CoT, e riduce le generazioni di programmi indesiderate del 65,1% sui task algoritmici rispetto a PoT con Gemini-2.0-Flash.

English

Large language models (LLMs) excel at zero-shot inference but continue to struggle with complex, multi-step reasoning. Recent methods that augment LLMs with intermediate reasoning steps such as Chain of Thought (CoT) and Program of Thought (PoT) improve performance but often produce undesirable solutions, especially in algorithmic domains. We introduce Per-Instance Program Synthesis (PIPS), a method that generates and refines programs at the instance-level using structural feedback without relying on task-specific guidance or explicit test cases. To further improve performance, PIPS incorporates a confidence metric that dynamically chooses between direct inference and program synthesis on a per-instance basis. Experiments across three frontier LLMs and 30 benchmarks including all tasks of Big Bench Extra Hard (BBEH), visual question answering tasks, relational reasoning tasks, and mathematical reasoning tasks show that PIPS improves the absolute harmonic mean accuracy by up to 8.6% and 9.4% compared to PoT and CoT respectively, and reduces undesirable program generations by 65.1% on the algorithmic tasks compared to PoT with Gemini-2.0-Flash.

C'era una volta un input: ragionamento tramite sintesi di programmi per singola istanza

Once Upon an Input: Reasoning via Per-Instance Program Synthesis

Abstract

Support