Rumo à Automelhoria de LLMs por meio de Imaginação, Busca e Crítica
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
April 18, 2024
Autores: Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu
cs.AI
Resumo
Apesar das impressionantes capacidades dos Modelos de Linguagem de Grande Escala (LLMs) em diversas tarefas, eles ainda enfrentam dificuldades em cenários que envolvem raciocínio complexo e planejamento. Trabalhos recentes propuseram técnicas avançadas de prompt e a necessidade de ajuste fino com dados de alta qualidade para aprimorar as habilidades de raciocínio dos LLMs. No entanto, essas abordagens são intrinsecamente limitadas pela disponibilidade e qualidade dos dados. Diante disso, a autocorreção e a autoaprendizagem surgem como soluções viáveis, empregando estratégias que permitem aos LLMs refinar suas saídas e aprender com recompensas autoavaliadas. Ainda assim, a eficácia dos LLMs em auto-refinar suas respostas, particularmente em tarefas de raciocínio complexo e planejamento, permanece questionável. Neste artigo, apresentamos o AlphaLLM para a auto-melhoria dos LLMs, que integra a Busca em Árvore de Monte Carlo (MCTS) com os LLMs para estabelecer um ciclo de auto-melhoria, aprimorando assim as capacidades dos LLMs sem anotações adicionais. Inspirado pelo sucesso do AlphaGo, o AlphaLLM aborda os desafios únicos de combinar MCTS com LLM para auto-melhoria, incluindo a escassez de dados, a vastidão dos espaços de busca em tarefas de linguagem e a natureza subjetiva do feedback em tarefas de linguagem. O AlphaLLM é composto por um componente de síntese de prompt, uma abordagem eficiente de MCTS adaptada para tarefas de linguagem e um trio de modelos críticos para feedback preciso. Nossos resultados experimentais em tarefas de raciocínio matemático demonstram que o AlphaLLM melhora significativamente o desempenho dos LLMs sem anotações adicionais, mostrando o potencial de auto-melhoria nos LLMs.
English
Despite the impressive capabilities of Large Language Models (LLMs) on
various tasks, they still struggle with scenarios that involves complex
reasoning and planning. Recent work proposed advanced prompting techniques and
the necessity of fine-tuning with high-quality data to augment LLMs' reasoning
abilities. However, these approaches are inherently constrained by data
availability and quality. In light of this, self-correction and self-learning
emerge as viable solutions, employing strategies that allow LLMs to refine
their outputs and learn from self-assessed rewards. Yet, the efficacy of LLMs
in self-refining its response, particularly in complex reasoning and planning
task, remains dubious. In this paper, we introduce AlphaLLM for the
self-improvements of LLMs, which integrates Monte Carlo Tree Search (MCTS) with
LLMs to establish a self-improving loop, thereby enhancing the capabilities of
LLMs without additional annotations. Drawing inspiration from the success of
AlphaGo, AlphaLLM addresses the unique challenges of combining MCTS with LLM
for self-improvement, including data scarcity, the vastness search spaces of
language tasks, and the subjective nature of feedback in language tasks.
AlphaLLM is comprised of prompt synthesis component, an efficient MCTS approach
tailored for language tasks, and a trio of critic models for precise feedback.
Our experimental results in mathematical reasoning tasks demonstrate that
AlphaLLM significantly enhances the performance of LLMs without additional
annotations, showing the potential for self-improvement in LLMs.