ChatPaper.aiChatPaper

Rumo à Autoaperfeiçoamento de LLMs via MCTS: Alavancando Conhecimento Passo a Passo com Aprendizado de Preferência de Currículo

Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning

October 9, 2024
Autores: Xiyao Wang, Linfeng Song, Ye Tian, Dian Yu, Baolin Peng, Haitao Mi, Furong Huang, Dong Yu
cs.AI

Resumo

A busca em árvore de Monte Carlo (Monte Carlo Tree Search - MCTS) surgiu recentemente como uma técnica poderosa para aprimorar as capacidades de raciocínio de LLMs. Técnicas como SFT ou DPO têm possibilitado que LLMs destilem comportamentos de alta qualidade do MCTS, melhorando seu desempenho de raciocínio. No entanto, os métodos de destilação existentes subutilizam as informações de trajetória geradas pelo MCTS, limitando o potencial de melhorias no raciocínio de LLMs. Neste artigo, propomos o AlphaLLM-CPL, um novo framework de treinamento em pares que permite que LLMs se auto aprimorem por meio da destilação de comportamentos do MCTS. O AlphaLLM-CPL aproveita de forma eficiente as trajetórias do MCTS por meio de duas inovações-chave: (1) o AlphaLLM-CPL constrói pares de trajetórias passo a passo a partir de nós filhos que compartilham o mesmo pai na árvore de busca, fornecendo informações em nível de passo para uma destilação de comportamento do MCTS mais eficaz. (2) O AlphaLLM-CPL introduz a aprendizagem de preferência de currículo, ajustando dinamicamente a sequência de treinamento de pares de trajetórias em cada época de treinamento offline para priorizar etapas críticas de aprendizado e mitigar o overfitting. Resultados experimentais em tarefas de raciocínio matemático demonstram que o AlphaLLM-CPL supera significativamente os métodos anteriores de destilação de comportamento do MCTS, impulsionando substancialmente as capacidades de raciocínio de LLMs.
English
Monte Carlo Tree Search (MCTS) has recently emerged as a powerful technique for enhancing the reasoning capabilities of LLMs. Techniques such as SFT or DPO have enabled LLMs to distill high-quality behaviors from MCTS, improving their reasoning performance. However, existing distillation methods underutilize the rich trajectory information generated by MCTS, limiting the potential for improvements in LLM reasoning. In this paper, we propose AlphaLLM-CPL, a novel pairwise training framework that enables LLMs to self-improve through MCTS behavior distillation. AlphaLLM-CPL efficiently leverages MCTS trajectories via two key innovations: (1) AlphaLLM-CPL constructs stepwise trajectory pairs from child nodes sharing the same parent in the search tree, providing step-level information for more effective MCTS behavior distillation. (2) AlphaLLM-CPL introduces curriculum preference learning, dynamically adjusting the training sequence of trajectory pairs in each offline training epoch to prioritize critical learning steps and mitigate overfitting. Experimental results on mathematical reasoning tasks demonstrate that AlphaLLM-CPL significantly outperforms previous MCTS behavior distillation methods, substantially boosting the reasoning capabilities of LLMs.

Summary

AI-Generated Summary

PDF102November 16, 2024