Vers l'auto-amélioration des LLM par l'imagination, la recherche et la critique
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
April 18, 2024
Auteurs: Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu
cs.AI
Résumé
Malgré les capacités impressionnantes des grands modèles de langage (LLMs) sur diverses tâches, ils peinent encore dans des scénarios impliquant un raisonnement et une planification complexes. Des travaux récents ont proposé des techniques de prompting avancées et la nécessité d'un fine-tuning avec des données de haute qualité pour améliorer les capacités de raisonnement des LLMs. Cependant, ces approches sont intrinsèquement limitées par la disponibilité et la qualité des données. Dans ce contexte, l'auto-correction et l'auto-apprentissage émergent comme des solutions viables, employant des stratégies qui permettent aux LLMs d'affiner leurs sorties et d'apprendre à partir de récompenses auto-évaluées. Pourtant, l'efficacité des LLMs à auto-affiner leurs réponses, en particulier dans des tâches de raisonnement et de planification complexes, reste douteuse. Dans cet article, nous présentons AlphaLLM pour l'auto-amélioration des LLMs, qui intègre la recherche arborescente Monte Carlo (MCTS) avec les LLMs pour établir une boucle d'auto-amélioration, améliorant ainsi les capacités des LLMs sans annotations supplémentaires. S'inspirant du succès d'AlphaGo, AlphaLLM aborde les défis uniques de la combinaison de MCTS avec LLM pour l'auto-amélioration, notamment la rareté des données, l'immensité des espaces de recherche des tâches linguistiques et la nature subjective des retours dans les tâches linguistiques. AlphaLLM est composé d'un module de synthèse de prompts, d'une approche MCTS efficace adaptée aux tâches linguistiques et d'un trio de modèles critiques pour un retour précis. Nos résultats expérimentaux dans des tâches de raisonnement mathématique démontrent qu'AlphaLLM améliore significativement les performances des LLMs sans annotations supplémentaires, montrant le potentiel d'auto-amélioration des LLMs.
English
Despite the impressive capabilities of Large Language Models (LLMs) on
various tasks, they still struggle with scenarios that involves complex
reasoning and planning. Recent work proposed advanced prompting techniques and
the necessity of fine-tuning with high-quality data to augment LLMs' reasoning
abilities. However, these approaches are inherently constrained by data
availability and quality. In light of this, self-correction and self-learning
emerge as viable solutions, employing strategies that allow LLMs to refine
their outputs and learn from self-assessed rewards. Yet, the efficacy of LLMs
in self-refining its response, particularly in complex reasoning and planning
task, remains dubious. In this paper, we introduce AlphaLLM for the
self-improvements of LLMs, which integrates Monte Carlo Tree Search (MCTS) with
LLMs to establish a self-improving loop, thereby enhancing the capabilities of
LLMs without additional annotations. Drawing inspiration from the success of
AlphaGo, AlphaLLM addresses the unique challenges of combining MCTS with LLM
for self-improvement, including data scarcity, the vastness search spaces of
language tasks, and the subjective nature of feedback in language tasks.
AlphaLLM is comprised of prompt synthesis component, an efficient MCTS approach
tailored for language tasks, and a trio of critic models for precise feedback.
Our experimental results in mathematical reasoning tasks demonstrate that
AlphaLLM significantly enhances the performance of LLMs without additional
annotations, showing the potential for self-improvement in LLMs.Summary
AI-Generated Summary