Einmal Eingabe, einmal Denken: Schlussfolgern durch instanzspezifische Programmsynthese

papers.abstract

Große Sprachmodelle (LLMs) zeichnen sich durch Zero-Shot-Inferenz aus, haben aber nach wie vor Schwierigkeiten mit komplexen, mehrstufigen Denkprozessen. Neuere Methoden, die LLMs mit Zwischenschritten für das logische Schließen anreichern, wie Chain of Thought (CoT) und Program of Thought (PoT), verbessern zwar die Leistung, produzieren aber oft unerwünschte Lösungen, insbesondere in algorithmischen Domänen. Wir stellen Per-Instance Program Synthesis (PIPS) vor, eine Methode, die Programme auf Instanzenebene unter Verwendung von strukturellem Feedback generiert und verfeinert, ohne auf aufgabenspezifische Anleitungen oder explizite Testfälle angewiesen zu sein. Um die Leistung weiter zu steigern, integriert PIPS eine Konfidenzmetrik, die dynamisch auf Pro-Instanz-Basis zwischen direkter Inferenz und Programmsynthese wählt. Experimente mit drei führenden LLMs und 30 Benchmarks, darunter alle Aufgaben von Big Bench Extra Hard (BBEH), Aufgaben zur visuellen Fragebeantwortung, Aufgaben zum relationalen Schließen und Aufgaben zum mathematischen Schließen, zeigen, dass PIPS die absolute harmonische Mittelgenauigkeit im Vergleich zu PoT bzw. CoT um bis zu 8,6 % und 9,4 % steigert und die unerwünschten Programmgenerationen bei den algorithmischen Aufgaben im Vergleich zu PoT mit Gemini-2.0-Flash um 65,1 % reduziert.

English

Large language models (LLMs) excel at zero-shot inference but continue to struggle with complex, multi-step reasoning. Recent methods that augment LLMs with intermediate reasoning steps such as Chain of Thought (CoT) and Program of Thought (PoT) improve performance but often produce undesirable solutions, especially in algorithmic domains. We introduce Per-Instance Program Synthesis (PIPS), a method that generates and refines programs at the instance-level using structural feedback without relying on task-specific guidance or explicit test cases. To further improve performance, PIPS incorporates a confidence metric that dynamically chooses between direct inference and program synthesis on a per-instance basis. Experiments across three frontier LLMs and 30 benchmarks including all tasks of Big Bench Extra Hard (BBEH), visual question answering tasks, relational reasoning tasks, and mathematical reasoning tasks show that PIPS improves the absolute harmonic mean accuracy by up to 8.6% and 9.4% compared to PoT and CoT respectively, and reduces undesirable program generations by 65.1% on the algorithmic tasks compared to PoT with Gemini-2.0-Flash.

Einmal Eingabe, einmal Denken: Schlussfolgern durch instanzspezifische Programmsynthese

Once Upon an Input: Reasoning via Per-Instance Program Synthesis

papers.abstract

Support