Разделяй или властвуй? Какую часть вашей большой языковой модели следует дистиллировать?

Аннотация

Последние исследования показали, что крупные языковые модели (LLM) лучше справляются с задачами, требующими рассуждений, если их поощрять сначала решать подзадачи основной задачи. В данной работе мы разрабатываем аналогичную стратегию, которая разбивает задачи рассуждений на этап декомпозиции проблемы и этап её решения, и демонстрируем, что такая стратегия превосходит одноэтапное решение. Кроме того, мы выдвигаем гипотезу, что декомпозицию проблемы легче дистиллировать в меньшую модель по сравнению с этапом решения, поскольку последний требует значительных знаний в предметной области, тогда как первый — лишь освоения общих стратегий решения задач. Мы предлагаем методы для дистилляции этих двух способностей и оцениваем их влияние на результаты рассуждений и стоимость вывода. Мы обнаруживаем, что можно успешно дистиллировать этап декомпозиции проблемы, одновременно достигая хорошей обобщаемости на различных задачах, наборах данных и моделях. Однако дистилляция способности к решению проблем без потери производительности оказывается сложнее, и полученная дистиллированная модель испытывает трудности с обобщением. Эти результаты указывают на то, что использование меньших, дистиллированных моделей для декомпозиции проблемы в сочетании с LLM для решения задач позволяет достичь эффективного рассуждения с экономичным выводом и локальной адаптацией.

English

Recent methods have demonstrated that Large Language Models (LLMs) can solve reasoning tasks better when they are encouraged to solve subtasks of the main task first. In this paper we devise a similar strategy that breaks down reasoning tasks into a problem decomposition phase and a problem solving phase and show that the strategy is able to outperform a single stage solution. Further, we hypothesize that the decomposition should be easier to distill into a smaller model compared to the problem solving because the latter requires large amounts of domain knowledge while the former only requires learning general problem solving strategies. We propose methods to distill these two capabilities and evaluate their impact on reasoning outcomes and inference cost. We find that we can distill the problem decomposition phase and at the same time achieve good generalization across tasks, datasets, and models. However, it is harder to distill the problem solving capability without losing performance and the resulting distilled model struggles with generalization. These results indicate that by using smaller, distilled problem decomposition models in combination with problem solving LLMs we can achieve reasoning with cost-efficient inference and local adaptation.

Разделяй или властвуй? Какую часть вашей большой языковой модели следует дистиллировать?

Divide-or-Conquer? Which Part Should You Distill Your LLM?

Аннотация

Support