DOTS: Aprendizado para Raciocínio Dinâmico em LLMs via Busca de Trajetórias Ótimas
DOTS: Learning to Reason Dynamically in LLMs via Optimal Reasoning Trajectories Search
October 4, 2024
Autores: Murong Yue, Wenlin Yao, Haitao Mi, Dian Yu, Ziyu Yao, Dong Yu
cs.AI
Resumo
O aprimoramento da capacidade de modelos de linguagem grandes (LLMs) em raciocínio tem recebido atenção significativa nos últimos anos. Estudos anteriores demonstraram a eficácia de várias estratégias de estímulo para auxiliar LLMs no raciocínio (chamadas "ações de raciocínio"), como pensamento passo a passo, reflexão antes de responder, resolução com programas e suas combinações. No entanto, essas abordagens frequentemente aplicavam ações de raciocínio estáticas e predefinidas uniformemente a todas as perguntas, sem considerar as características específicas de cada pergunta ou a capacidade do LLM de resolver a tarefa. Neste artigo, propomos DOTS, uma abordagem que permite que os LLMs raciocinem de forma dinâmica por meio da busca da trajetória de raciocínio ótima, adaptada às características específicas de cada pergunta e à capacidade inerente do LLM de resolver a tarefa. Nossa abordagem envolve três etapas-chave: i) definição de módulos de ação de raciocínio atômico que podem ser compostos em várias trajetórias de ação de raciocínio; ii) busca da trajetória de ação ótima para cada pergunta de treinamento por meio de exploração iterativa e avaliação para o LLM de resolução de tarefas específico; e iii) uso das trajetórias ótimas coletadas para treinar um LLM a planejar as trajetórias de raciocínio de perguntas não vistas. Em particular, propomos dois paradigmas de aprendizado, ou seja, ajuste fino de um LLM externo como planejador para orientar o LLM de resolução de tarefas, ou ajuste fino direto do LLM de resolução de tarefas com uma capacidade internalizada para o planejamento de ações de raciocínio. Nossos experimentos em oito tarefas de raciocínio mostram que nosso método supera consistentemente técnicas de raciocínio estático e a abordagem de ajuste de instruções padrão. Análises adicionais revelam que nosso método permite que os LLMs ajustem sua computação com base na complexidade do problema, alocando um pensamento e raciocínio mais profundos para problemas mais difíceis.
English
Enhancing the capability of large language models (LLMs) in reasoning has
gained significant attention in recent years. Previous studies have
demonstrated the effectiveness of various prompting strategies in aiding LLMs
in reasoning (called "reasoning actions"), such as step-by-step thinking,
reflecting before answering, solving with programs, and their combinations.
However, these approaches often applied static, predefined reasoning actions
uniformly to all questions, without considering the specific characteristics of
each question or the capability of the task-solving LLM. In this paper, we
propose DOTS, an approach enabling LLMs to reason dynamically via optimal
reasoning trajectory search, tailored to the specific characteristics of each
question and the inherent capability of the task-solving LLM. Our approach
involves three key steps: i) defining atomic reasoning action modules that can
be composed into various reasoning action trajectories; ii) searching for the
optimal action trajectory for each training question through iterative
exploration and evaluation for the specific task-solving LLM; and iii) using
the collected optimal trajectories to train an LLM to plan for the reasoning
trajectories of unseen questions. In particular, we propose two learning
paradigms, i.e., fine-tuning an external LLM as a planner to guide the
task-solving LLM, or directly fine-tuning the task-solving LLM with an
internalized capability for reasoning actions planning. Our experiments across
eight reasoning tasks show that our method consistently outperforms static
reasoning techniques and the vanilla instruction tuning approach. Further
analysis reveals that our method enables LLMs to adjust their computation based
on problem complexity, allocating deeper thinking and reasoning to harder
problems.Summary
AI-Generated Summary