Sprachmodelle als Compiler: Die Simulation der Pseudocode-Ausführung verbessert die algorithmische Argumentation in Sprachmodellen.

papers.abstract

Algorithmisches Denken bezieht sich auf die Fähigkeit, komplexe Muster hinter einem Problem zu verstehen und sie in eine Abfolge von Denkschritten zur Lösung zu zerlegen. Diese Art des algorithmischen Denkens stellt eine Herausforderung für große Sprachmodelle (LLMs) dar, obwohl sie vielversprechende Leistungen in anderen Denkaufgaben gezeigt haben. In diesem Zusammenhang verwenden einige aktuelle Studien Programmiersprachen (z. B. Python), um die erforderliche Logik zur Lösung einer gegebenen Instanz/Frage (z. B. Programm-des-Denkens) auszudrücken, inspiriert von ihren strengen und präzisen Syntaxen. Es ist jedoch nicht trivial, einen ausführbaren Code zu schreiben, der die korrekte Logik sofort in einem einzigen Inferenzaufruf ausdrückt. Außerdem kann der speziell für eine Instanz generierte Code nicht für andere wiederverwendet werden, auch wenn sie aus derselben Aufgabe stammen und möglicherweise eine identische Logik zur Lösung erfordern. Diese Arbeit stellt Think-and-Execute vor, ein neuartiges Framework, das den Denkprozess von Sprachmodellen in zwei Schritte zerlegt. (1) Im Denken entdecken wir eine aufgabenbezogene Logik, die für die Lösung einer gegebenen Aufgabe für alle Instanzen gemeinsam ist, und drücken dann die Logik mit Pseudocode aus; (2) Im Ausführen passen wir den generierten Pseudocode weiter an jede Instanz an und simulieren die Ausführung des Codes. Mit umfangreichen Experimenten zu sieben algorithmischen Denkaufgaben zeigen wir die Wirksamkeit von Think-and-Execute. Unser Ansatz verbessert das Denken von LMs im Vergleich zu mehreren starken Baselines, die eine instanzspezifische Logik ausführen (z. B. CoT und PoT), was auf die Nützlichkeit der Entdeckung von aufgabenbezogener Logik hinweist. Außerdem zeigen wir, dass Pseudocode im Vergleich zur natürlichen Sprache das Denken von LMs besser lenken kann, obwohl sie darauf trainiert sind, natürlichsprachigen Anweisungen zu folgen.

English

Algorithmic reasoning refers to the ability to understand the complex patterns behind the problem and decompose them into a sequence of reasoning steps towards the solution. Such nature of algorithmic reasoning makes it a challenge for large language models (LLMs), even though they have demonstrated promising performance in other reasoning tasks. Within this context, some recent studies use programming languages (e.g., Python) to express the necessary logic for solving a given instance/question (e.g., Program-of-Thought) as inspired by their strict and precise syntaxes. However, it is non-trivial to write an executable code that expresses the correct logic on the fly within a single inference call. Also, the code generated specifically for an instance cannot be reused for others, even if they are from the same task and might require identical logic to solve. This paper presents Think-and-Execute, a novel framework that decomposes the reasoning process of language models into two steps. (1) In Think, we discover a task-level logic that is shared across all instances for solving a given task and then express the logic with pseudocode; (2) In Execute, we further tailor the generated pseudocode to each instance and simulate the execution of the code. With extensive experiments on seven algorithmic reasoning tasks, we demonstrate the effectiveness of Think-and-Execute. Our approach better improves LMs' reasoning compared to several strong baselines performing instance-specific reasoning (e.g., CoT and PoT), suggesting the helpfulness of discovering task-level logic. Also, we show that compared to natural language, pseudocode can better guide the reasoning of LMs, even though they are trained to follow natural language instructions.

Sprachmodelle als Compiler: Die Simulation der Pseudocode-Ausführung verbessert die algorithmische Argumentation in Sprachmodellen.

Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models

papers.abstract

Support