ChatPaper.aiChatPaper

Modelli Linguistici come Compilatori: Simulare l'Esecuzione di Pseudocodice Migliora il Ragionamento Algoritmico nei Modelli Linguistici

Language Models as Compilers: Simulating Pseudocode Execution Improves Algorithmic Reasoning in Language Models

April 3, 2024
Autori: Hyungjoo Chae, Yeonghyeon Kim, Seungone Kim, Kai Tzu-iunn Ong, Beong-woo Kwak, Moohyeon Kim, Seonghwan Kim, Taeyoon Kwon, Jiwan Chung, Youngjae Yu, Jinyoung Yeo
cs.AI

Abstract

Il ragionamento algoritmico si riferisce alla capacità di comprendere i modelli complessi dietro un problema e di scomporli in una sequenza di passaggi logici verso la soluzione. Questa natura del ragionamento algoritmico lo rende una sfida per i grandi modelli linguistici (LLM), nonostante abbiano dimostrato prestazioni promettenti in altri compiti di ragionamento. In questo contesto, alcuni studi recenti utilizzano linguaggi di programmazione (ad esempio, Python) per esprimere la logica necessaria per risolvere un determinato problema (ad esempio, Program-of-Thought), ispirandosi alla loro sintassi rigorosa e precisa. Tuttavia, non è banale scrivere un codice eseguibile che esprima la logica corretta al volo all'interno di una singola chiamata di inferenza. Inoltre, il codice generato specificamente per un'istanza non può essere riutilizzato per altre, anche se appartengono allo stesso compito e potrebbero richiedere una logica identica per essere risolte. Questo articolo presenta Think-and-Execute, un nuovo framework che scompone il processo di ragionamento dei modelli linguistici in due passaggi. (1) In Think, scopriamo una logica a livello di compito condivisa da tutte le istanze per risolvere un determinato problema e la esprimiamo con pseudocodice; (2) In Execute, adattiamo ulteriormente lo pseudocodice generato a ciascuna istanza e simuliamo l'esecuzione del codice. Con esperimenti estesi su sette compiti di ragionamento algoritmico, dimostriamo l'efficacia di Think-and-Execute. Il nostro approccio migliora il ragionamento dei modelli linguistici rispetto a diverse baseline forti che eseguono ragionamenti specifici per istanza (ad esempio, CoT e PoT), suggerendo l'utilità di scoprire una logica a livello di compito. Inoltre, mostriamo che, rispetto al linguaggio naturale, lo pseudocodice può guidare meglio il ragionamento dei modelli linguistici, nonostante siano addestrati a seguire istruzioni in linguaggio naturale.
English
Algorithmic reasoning refers to the ability to understand the complex patterns behind the problem and decompose them into a sequence of reasoning steps towards the solution. Such nature of algorithmic reasoning makes it a challenge for large language models (LLMs), even though they have demonstrated promising performance in other reasoning tasks. Within this context, some recent studies use programming languages (e.g., Python) to express the necessary logic for solving a given instance/question (e.g., Program-of-Thought) as inspired by their strict and precise syntaxes. However, it is non-trivial to write an executable code that expresses the correct logic on the fly within a single inference call. Also, the code generated specifically for an instance cannot be reused for others, even if they are from the same task and might require identical logic to solve. This paper presents Think-and-Execute, a novel framework that decomposes the reasoning process of language models into two steps. (1) In Think, we discover a task-level logic that is shared across all instances for solving a given task and then express the logic with pseudocode; (2) In Execute, we further tailor the generated pseudocode to each instance and simulate the execution of the code. With extensive experiments on seven algorithmic reasoning tasks, we demonstrate the effectiveness of Think-and-Execute. Our approach better improves LMs' reasoning compared to several strong baselines performing instance-specific reasoning (e.g., CoT and PoT), suggesting the helpfulness of discovering task-level logic. Also, we show that compared to natural language, pseudocode can better guide the reasoning of LMs, even though they are trained to follow natural language instructions.
PDF509November 26, 2024