Dividir ou Conquistar? Qual Parte do Seu LLM Você Deve Destilar?

Resumo

Métodos recentes demonstraram que os Modelos de Linguagem de Grande Escala (LLMs) podem resolver tarefas de raciocínio de forma mais eficaz quando são incentivados a resolver subtarefas da tarefa principal primeiro. Neste artigo, elaboramos uma estratégia semelhante que divide tarefas de raciocínio em uma fase de decomposição do problema e uma fase de resolução do problema, e mostramos que essa estratégia é capaz de superar uma solução de estágio único. Além disso, hipotetizamos que a decomposição deve ser mais fácil de destilar em um modelo menor em comparação com a resolução do problema, pois esta última requer grandes quantidades de conhecimento específico do domínio, enquanto a primeira exige apenas a aprendizagem de estratégias gerais de resolução de problemas. Propomos métodos para destilar essas duas capacidades e avaliamos seu impacto nos resultados de raciocínio e no custo de inferência. Descobrimos que podemos destilar a fase de decomposição do problema e, ao mesmo tempo, alcançar uma boa generalização entre tarefas, conjuntos de dados e modelos. No entanto, é mais difícil destilar a capacidade de resolução de problemas sem perder desempenho, e o modelo resultante destilado enfrenta dificuldades com a generalização. Esses resultados indicam que, ao usar modelos menores e destilados de decomposição de problemas em combinação com LLMs de resolução de problemas, podemos alcançar raciocínio com inferência de custo eficiente e adaptação local.

English

Recent methods have demonstrated that Large Language Models (LLMs) can solve reasoning tasks better when they are encouraged to solve subtasks of the main task first. In this paper we devise a similar strategy that breaks down reasoning tasks into a problem decomposition phase and a problem solving phase and show that the strategy is able to outperform a single stage solution. Further, we hypothesize that the decomposition should be easier to distill into a smaller model compared to the problem solving because the latter requires large amounts of domain knowledge while the former only requires learning general problem solving strategies. We propose methods to distill these two capabilities and evaluate their impact on reasoning outcomes and inference cost. We find that we can distill the problem decomposition phase and at the same time achieve good generalization across tasks, datasets, and models. However, it is harder to distill the problem solving capability without losing performance and the resulting distilled model struggles with generalization. These results indicate that by using smaller, distilled problem decomposition models in combination with problem solving LLMs we can achieve reasoning with cost-efficient inference and local adaptation.

Dividir ou Conquistar? Qual Parte do Seu LLM Você Deve Destilar?

Divide-or-Conquer? Which Part Should You Distill Your LLM?

Resumo

Support