Case2Code: Apprendimento del Ragionamento Induttivo con Dati Sintetici
Case2Code: Learning Inductive Reasoning with Synthetic Data
July 17, 2024
Autori: Yunfan Shao, Linyang Li, Yichuan Ma, Peiji Li, Demin Song, Qinyuan Cheng, Shimin Li, Xiaonan Li, Pengyu Wang, Qipeng Guo, Hang Yan, Xipeng Qiu, Xuanjing Huang, Dahua Lin
cs.AI
Abstract
Il ragionamento complesso è un'abilità impressionante dimostrata dai grandi modelli linguistici (LLM). La maggior parte degli LLM è abile nel ragionamento deduttivo, come il prompting a catena di pensiero o l'uso iterativo di strumenti per risolvere compiti impegnativi passo dopo passo. In questo articolo, ci concentriamo sulla valutazione e sull'insegnamento degli LLM per condurre ragionamenti induttivi, ovvero gli LLM dovrebbero inferire regole sottostanti osservando esempi o trasformazioni sequenziali. Tuttavia, raccogliere dati induttivi su larga scala e diversificati generati dall'uomo è una sfida. Ci concentriamo sulla sintesi di dati nel dominio del codice e proponiamo un'attività Case2Code sfruttando l'espressività e la correttezza dei programmi. Nello specifico, raccogliamo un insieme diversificato di programmi eseguibili, sintetizziamo trasformazioni input-output per ciascun programma e costringiamo gli LLM a inferire le implementazioni di codice sottostanti basandosi sui casi sintetici I/O. Prima valutiamo LLM rappresentativi sul compito sintetico Case2Code e dimostriamo che l'induzione da caso a codice è impegnativa per gli LLM. Successivamente, sintetizziamo un ampio numero di campioni di addestramento Case2Code per addestrare gli LLM a eseguire ragionamenti induttivi. I risultati sperimentali mostrano che tale addestramento induttivo non solo migliora le prestazioni in distribuzione di Case2Code, ma potenzia anche varie abilità di codifica degli LLM addestrati, dimostrando il grande potenziale dell'apprendimento del ragionamento induttivo tramite dati sintetici.
English
Complex reasoning is an impressive ability shown by large language models
(LLMs). Most LLMs are skilled in deductive reasoning, such as chain-of-thought
prompting or iterative tool-using to solve challenging tasks step-by-step. In
this paper, we hope to focus on evaluating and teaching LLMs to conduct
inductive reasoning, that is, LLMs are supposed to infer underlying rules by
observing examples or sequential transformations. However, collecting
large-scale and diverse human-generated inductive data is challenging. We focus
on data synthesis in the code domain and propose a Case2Code task by
exploiting the expressiveness and correctness of programs. Specifically, we
collect a diverse set of executable programs, synthesize input-output
transformations for each program, and force LLMs to infer the underlying code
implementations based on the synthetic I/O cases. We first evaluate
representative LLMs on the synthesized Case2Code task and demonstrate that the
Case-to-code induction is challenging for LLMs. Then, we synthesize large-scale
Case2Code training samples to train LLMs to perform inductive reasoning.
Experimental results show that such induction training benefits not only in
distribution Case2Code performance but also enhances various coding abilities
of trained LLMs, demonstrating the great potential of learning inductive
reasoning via synthetic data.