Verso l'auto-miglioramento dei LLM attraverso immaginazione, ricerca e critica
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
April 18, 2024
Autori: Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu
cs.AI
Abstract
Nonostante le impressionanti capacità dei Large Language Models (LLMs) in vari compiti, essi continuano a lottare con scenari che coinvolgono ragionamenti complessi e pianificazione. Recenti lavori hanno proposto tecniche avanzate di prompting e la necessità di un fine-tuning con dati di alta qualità per potenziare le capacità di ragionamento degli LLMs. Tuttavia, questi approcci sono intrinsecamente limitati dalla disponibilità e dalla qualità dei dati. Alla luce di ciò, l'autocorrezione e l'autoapprendimento emergono come soluzioni praticabili, impiegando strategie che consentono agli LLMs di affinare i loro output e apprendere da ricompense auto-valutate. Tuttavia, l'efficacia degli LLMs nell'autorifinire le proprie risposte, specialmente in compiti di ragionamento complesso e pianificazione, rimane dubbia. In questo articolo, introduciamo AlphaLLM per il miglioramento autonomo degli LLMs, che integra il Monte Carlo Tree Search (MCTS) con gli LLMs per stabilire un ciclo di auto-miglioramento, migliorando così le capacità degli LLMs senza annotazioni aggiuntive. Traendo ispirazione dal successo di AlphaGo, AlphaLLM affronta le sfide uniche di combinare MCTS con LLM per l'auto-miglioramento, inclusa la scarsità di dati, l'ampiezza degli spazi di ricerca nei compiti linguistici e la natura soggettiva del feedback nei compiti linguistici. AlphaLLM è composto da un componente di sintesi dei prompt, un approccio MCTS efficiente adattato per i compiti linguistici e una triade di modelli critici per un feedback preciso. I nostri risultati sperimentali in compiti di ragionamento matematico dimostrano che AlphaLLM migliora significativamente le prestazioni degli LLMs senza annotazioni aggiuntive, mostrando il potenziale per l'auto-miglioramento negli LLMs.
English
Despite the impressive capabilities of Large Language Models (LLMs) on
various tasks, they still struggle with scenarios that involves complex
reasoning and planning. Recent work proposed advanced prompting techniques and
the necessity of fine-tuning with high-quality data to augment LLMs' reasoning
abilities. However, these approaches are inherently constrained by data
availability and quality. In light of this, self-correction and self-learning
emerge as viable solutions, employing strategies that allow LLMs to refine
their outputs and learn from self-assessed rewards. Yet, the efficacy of LLMs
in self-refining its response, particularly in complex reasoning and planning
task, remains dubious. In this paper, we introduce AlphaLLM for the
self-improvements of LLMs, which integrates Monte Carlo Tree Search (MCTS) with
LLMs to establish a self-improving loop, thereby enhancing the capabilities of
LLMs without additional annotations. Drawing inspiration from the success of
AlphaGo, AlphaLLM addresses the unique challenges of combining MCTS with LLM
for self-improvement, including data scarcity, the vastness search spaces of
language tasks, and the subjective nature of feedback in language tasks.
AlphaLLM is comprised of prompt synthesis component, an efficient MCTS approach
tailored for language tasks, and a trio of critic models for precise feedback.
Our experimental results in mathematical reasoning tasks demonstrate that
AlphaLLM significantly enhances the performance of LLMs without additional
annotations, showing the potential for self-improvement in LLMs.