К самосовершенствованию LLM с помощью воображения, поиска и критики.
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
April 18, 2024
Авторы: Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu
cs.AI
Аннотация
Несмотря на впечатляющие возможности моделей больших языковых объемов (LLM) в различных задачах, они все еще испытывают трудности в сценариях, требующих сложного рассуждения и планирования. В недавних работах были предложены передовые методики подсказок и необходимость тонкой настройки на высококачественных данных для улучшения способностей LLM к рассуждению. Однако эти подходы по своей сути ограничены доступностью и качеством данных. В свете этого самокоррекция и самообучение становятся жизнеспособными решениями, используя стратегии, позволяющие LLM улучшать свои выводы и учиться на самооценке вознаграждений. Тем не менее, эффективность LLM в самосовершенствовании своего ответа, особенно в задачах сложного рассуждения и планирования, остается сомнительной. В данной статье мы представляем AlphaLLM для самосовершенствования LLM, который интегрирует метод поиска по дереву Монте-Карло (MCTS) с LLM для установления цикла самосовершенствования, тем самым улучшая способности LLM без дополнительных аннотаций. Вдохновляясь успехом AlphaGo, AlphaLLM решает уникальные проблемы сочетания MCTS с LLM для самосовершенствования, включая недостаток данных, огромные пространства поиска языковых задач и субъективный характер обратной связи в языковых задачах. AlphaLLM состоит из компонента синтеза подсказок, эффективного подхода MCTS, адаптированного для языковых задач, и тройки моделей-критиков для точной обратной связи. Наши экспериментальные результаты в задачах математического рассуждения показывают, что AlphaLLM значительно улучшает производительность LLM без дополнительных аннотаций, демонстрируя потенциал для самосовершенствования в LLM.
English
Despite the impressive capabilities of Large Language Models (LLMs) on
various tasks, they still struggle with scenarios that involves complex
reasoning and planning. Recent work proposed advanced prompting techniques and
the necessity of fine-tuning with high-quality data to augment LLMs' reasoning
abilities. However, these approaches are inherently constrained by data
availability and quality. In light of this, self-correction and self-learning
emerge as viable solutions, employing strategies that allow LLMs to refine
their outputs and learn from self-assessed rewards. Yet, the efficacy of LLMs
in self-refining its response, particularly in complex reasoning and planning
task, remains dubious. In this paper, we introduce AlphaLLM for the
self-improvements of LLMs, which integrates Monte Carlo Tree Search (MCTS) with
LLMs to establish a self-improving loop, thereby enhancing the capabilities of
LLMs without additional annotations. Drawing inspiration from the success of
AlphaGo, AlphaLLM addresses the unique challenges of combining MCTS with LLM
for self-improvement, including data scarcity, the vastness search spaces of
language tasks, and the subjective nature of feedback in language tasks.
AlphaLLM is comprised of prompt synthesis component, an efficient MCTS approach
tailored for language tasks, and a trio of critic models for precise feedback.
Our experimental results in mathematical reasoning tasks demonstrate that
AlphaLLM significantly enhances the performance of LLMs without additional
annotations, showing the potential for self-improvement in LLMs.Summary
AI-Generated Summary