Naar zelfverbetering van LLM's via verbeelding, zoeken en bekritiseren
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
April 18, 2024
Auteurs: Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu
cs.AI
Samenvatting
Ondanks de indrukwekkende capaciteiten van Large Language Models (LLMs) bij
verschillende taken, hebben ze nog steeds moeite met scenario's die complex
redeneren en plannen vereisen. Recent onderzoek stelde geavanceerde promptingtechnieken
en de noodzaak van fine-tuning met hoogwaardige data voor om de redeneervaardigheden
van LLMs te verbeteren. Deze benaderingen worden echter inherent beperkt door de
beschikbaarheid en kwaliteit van data. Gezien dit komen zelfcorrectie en zelfleren
naar voren als haalbare oplossingen, waarbij strategieën worden ingezet die LLMs
in staat stellen hun uitvoer te verfijnen en te leren van zelfbeoordeelde beloningen.
Toch blijft de effectiviteit van LLMs bij het zelfverfijnen van hun reacties,
met name bij complexe redeneer- en plannings taken, twijfelachtig. In dit artikel
introduceren we AlphaLLM voor de zelfverbetering van LLMs, dat Monte Carlo Tree
Search (MCTS) integreert met LLMs om een zelfverbeterende lus te creëren, waardoor
de capaciteiten van LLMs worden vergroot zonder aanvullende annotaties. Geïnspireerd
door het succes van AlphaGo, behandelt AlphaLLM de unieke uitdagingen van het
combineren van MCTS met LLM voor zelfverbetering, waaronder dataschaarste, de
uitgestrektheid van zoekruimten bij taaltaken, en de subjectieve aard van feedback
bij taaltaken. AlphaLLM bestaat uit een prompt-synthesecomponent, een efficiënte
MCTS-aanpak afgestemd op taaltaken, en een trio van criticusmodellen voor precieze
feedback. Onze experimentele resultaten bij wiskundige redeneertaken tonen aan dat
AlphaLLM de prestaties van LLMs aanzienlijk verbetert zonder aanvullende annotaties,
wat het potentieel voor zelfverbetering in LLMs aantoont.
English
Despite the impressive capabilities of Large Language Models (LLMs) on
various tasks, they still struggle with scenarios that involves complex
reasoning and planning. Recent work proposed advanced prompting techniques and
the necessity of fine-tuning with high-quality data to augment LLMs' reasoning
abilities. However, these approaches are inherently constrained by data
availability and quality. In light of this, self-correction and self-learning
emerge as viable solutions, employing strategies that allow LLMs to refine
their outputs and learn from self-assessed rewards. Yet, the efficacy of LLMs
in self-refining its response, particularly in complex reasoning and planning
task, remains dubious. In this paper, we introduce AlphaLLM for the
self-improvements of LLMs, which integrates Monte Carlo Tree Search (MCTS) with
LLMs to establish a self-improving loop, thereby enhancing the capabilities of
LLMs without additional annotations. Drawing inspiration from the success of
AlphaGo, AlphaLLM addresses the unique challenges of combining MCTS with LLM
for self-improvement, including data scarcity, the vastness search spaces of
language tasks, and the subjective nature of feedback in language tasks.
AlphaLLM is comprised of prompt synthesis component, an efficient MCTS approach
tailored for language tasks, and a trio of critic models for precise feedback.
Our experimental results in mathematical reasoning tasks demonstrate that
AlphaLLM significantly enhances the performance of LLMs without additional
annotations, showing the potential for self-improvement in LLMs.