Dividere o Conquistare? Quale Parte del Tuo LLM Dovresti Distillare?

Abstract

I metodi recenti hanno dimostrato che i Large Language Model (LLM) possono risolvere compiti di ragionamento in modo più efficace quando vengono incoraggiati a risolvere prima i sottocompiti del compito principale. In questo articolo proponiamo una strategia simile che suddivide i compiti di ragionamento in una fase di scomposizione del problema e una fase di risoluzione del problema, mostrando che questa strategia è in grado di superare una soluzione a stadio singolo. Inoltre, ipotizziamo che la scomposizione dovrebbe essere più facile da distillare in un modello più piccolo rispetto alla risoluzione del problema, poiché quest'ultima richiede grandi quantità di conoscenza di dominio, mentre la prima richiede solo l'apprendimento di strategie generali di risoluzione dei problemi. Proponiamo metodi per distillare queste due capacità e valutiamo il loro impatto sui risultati del ragionamento e sui costi di inferenza. Troviamo che è possibile distillare la fase di scomposizione del problema e allo stesso tempo ottenere una buona generalizzazione tra compiti, dataset e modelli. Tuttavia, è più difficile distillare la capacità di risoluzione dei problemi senza perdere prestazioni, e il modello distillato risultante fatica a generalizzare. Questi risultati indicano che utilizzando modelli più piccoli e distillati per la scomposizione dei problemi in combinazione con LLM per la risoluzione dei problemi, possiamo ottenere ragionamenti con inferenze efficienti in termini di costi e adattamento locale.

English

Recent methods have demonstrated that Large Language Models (LLMs) can solve reasoning tasks better when they are encouraged to solve subtasks of the main task first. In this paper we devise a similar strategy that breaks down reasoning tasks into a problem decomposition phase and a problem solving phase and show that the strategy is able to outperform a single stage solution. Further, we hypothesize that the decomposition should be easier to distill into a smaller model compared to the problem solving because the latter requires large amounts of domain knowledge while the former only requires learning general problem solving strategies. We propose methods to distill these two capabilities and evaluate their impact on reasoning outcomes and inference cost. We find that we can distill the problem decomposition phase and at the same time achieve good generalization across tasks, datasets, and models. However, it is harder to distill the problem solving capability without losing performance and the resulting distilled model struggles with generalization. These results indicate that by using smaller, distilled problem decomposition models in combination with problem solving LLMs we can achieve reasoning with cost-efficient inference and local adaptation.

Dividere o Conquistare? Quale Parte del Tuo LLM Dovresti Distillare?

Divide-or-Conquer? Which Part Should You Distill Your LLM?

Abstract

Support