Auf dem Weg zur Selbstverbesserung von LLMs durch Vorstellungskraft, Suche und Kritik.
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
April 18, 2024
papers.authors: Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu
cs.AI
papers.abstract
Trotz der beeindruckenden Fähigkeiten von Large Language Models (LLMs) bei verschiedenen Aufgaben haben sie immer noch Schwierigkeiten in Szenarien, die komplexe Schlussfolgerungen und Planung erfordern. In jüngsten Arbeiten wurden fortschrittliche Prompting-Techniken vorgeschlagen und die Notwendigkeit des Feinabstimmens mit hochwertigen Daten, um die Schlussfolgerungsfähigkeiten von LLMs zu verbessern. Diese Ansätze sind jedoch inhärent durch die Verfügbarkeit und Qualität der Daten eingeschränkt. Vor diesem Hintergrund erweisen sich Selbstkorrektur und Selbstlernen als gangbare Lösungen, die Strategien einsetzen, die es LLMs ermöglichen, ihre Ausgaben zu verfeinern und aus selbstbewerteten Belohnungen zu lernen. Dennoch bleibt die Wirksamkeit von LLMs bei der Selbstverbesserung ihrer Antworten, insbesondere bei komplexen Schlussfolgerungs- und Planungsaufgaben, fraglich. In diesem Paper stellen wir AlphaLLM für die Selbstverbesserung von LLMs vor, das Monte Carlo Tree Search (MCTS) mit LLMs integriert, um eine Selbstverbesserungsschleife zu etablieren und damit die Fähigkeiten von LLMs ohne zusätzliche Annotationen zu verbessern. Inspiriert vom Erfolg von AlphaGo, adressiert AlphaLLM die einzigartigen Herausforderungen der Kombination von MCTS mit LLM zur Selbstverbesserung, einschließlich Datenknappheit, der Weite der Suchräume von Sprachaufgaben und der subjektiven Natur des Feedbacks bei Sprachaufgaben. AlphaLLM besteht aus einem Prompt-Synthese-Modul, einem effizienten MCTS-Ansatz, der für Sprachaufgaben maßgeschneidert ist, und einem Trio von Kritikmodellen für präzises Feedback. Unsere experimentellen Ergebnisse bei mathematischen Schlussfolgerungsaufgaben zeigen, dass AlphaLLM die Leistung von LLMs signifikant verbessert, ohne zusätzliche Annotationen, was das Potenzial für Selbstverbesserung in LLMs aufzeigt.
English
Despite the impressive capabilities of Large Language Models (LLMs) on
various tasks, they still struggle with scenarios that involves complex
reasoning and planning. Recent work proposed advanced prompting techniques and
the necessity of fine-tuning with high-quality data to augment LLMs' reasoning
abilities. However, these approaches are inherently constrained by data
availability and quality. In light of this, self-correction and self-learning
emerge as viable solutions, employing strategies that allow LLMs to refine
their outputs and learn from self-assessed rewards. Yet, the efficacy of LLMs
in self-refining its response, particularly in complex reasoning and planning
task, remains dubious. In this paper, we introduce AlphaLLM for the
self-improvements of LLMs, which integrates Monte Carlo Tree Search (MCTS) with
LLMs to establish a self-improving loop, thereby enhancing the capabilities of
LLMs without additional annotations. Drawing inspiration from the success of
AlphaGo, AlphaLLM addresses the unique challenges of combining MCTS with LLM
for self-improvement, including data scarcity, the vastness search spaces of
language tasks, and the subjective nature of feedback in language tasks.
AlphaLLM is comprised of prompt synthesis component, an efficient MCTS approach
tailored for language tasks, and a trio of critic models for precise feedback.
Our experimental results in mathematical reasoning tasks demonstrate that
AlphaLLM significantly enhances the performance of LLMs without additional
annotations, showing the potential for self-improvement in LLMs.