¿Dividir o conquistar? ¿Qué parte de tu modelo de lenguaje grande deberías destilar?

Resumen

Métodos recientes han demostrado que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) pueden resolver tareas de razonamiento de manera más efectiva cuando se les incentiva a abordar primero subtareas del problema principal. En este artículo, diseñamos una estrategia similar que descompone las tareas de razonamiento en una fase de descomposición del problema y una fase de resolución del problema, y mostramos que esta estrategia supera a una solución de una sola etapa. Además, planteamos la hipótesis de que la descomposición debería ser más fácil de destilar en un modelo más pequeño en comparación con la resolución del problema, ya que esta última requiere grandes cantidades de conocimiento del dominio, mientras que la primera solo requiere aprender estrategias generales de resolución de problemas. Proponemos métodos para destilar estas dos capacidades y evaluamos su impacto en los resultados de razonamiento y el costo de inferencia. Descubrimos que podemos destilar la fase de descomposición del problema y, al mismo tiempo, lograr una buena generalización entre tareas, conjuntos de datos y modelos. Sin embargo, es más difícil destilar la capacidad de resolución de problemas sin perder rendimiento, y el modelo destilado resultante tiene dificultades para generalizar. Estos resultados indican que, al utilizar modelos más pequeños y destilados para la descomposición del problema en combinación con LLMs de resolución de problemas, podemos lograr un razonamiento con inferencia eficiente en costos y adaptación local.

English

Recent methods have demonstrated that Large Language Models (LLMs) can solve reasoning tasks better when they are encouraged to solve subtasks of the main task first. In this paper we devise a similar strategy that breaks down reasoning tasks into a problem decomposition phase and a problem solving phase and show that the strategy is able to outperform a single stage solution. Further, we hypothesize that the decomposition should be easier to distill into a smaller model compared to the problem solving because the latter requires large amounts of domain knowledge while the former only requires learning general problem solving strategies. We propose methods to distill these two capabilities and evaluate their impact on reasoning outcomes and inference cost. We find that we can distill the problem decomposition phase and at the same time achieve good generalization across tasks, datasets, and models. However, it is harder to distill the problem solving capability without losing performance and the resulting distilled model struggles with generalization. These results indicate that by using smaller, distilled problem decomposition models in combination with problem solving LLMs we can achieve reasoning with cost-efficient inference and local adaptation.

¿Dividir o conquistar? ¿Qué parte de tu modelo de lenguaje grande deberías destilar?

Divide-or-Conquer? Which Part Should You Distill Your LLM?

Resumen

Support