Hacia la Automejora de los LLM mediante la Imaginación, Búsqueda y Crítica
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
April 18, 2024
Autores: Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu
cs.AI
Resumen
A pesar de las impresionantes capacidades de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) en diversas tareas, aún enfrentan dificultades en escenarios que involucran razonamiento complejo y planificación. Trabajos recientes han propuesto técnicas avanzadas de *prompting* y la necesidad de ajustar los modelos con datos de alta calidad para mejorar las habilidades de razonamiento de los LLMs. Sin embargo, estos enfoques están intrínsecamente limitados por la disponibilidad y calidad de los datos. En este contexto, la autocorrección y el autoaprendizaje surgen como soluciones viables, empleando estrategias que permiten a los LLMs refinar sus salidas y aprender a partir de recompensas autoevaluadas. No obstante, la eficacia de los LLMs en la autorrefinación de sus respuestas, particularmente en tareas de razonamiento complejo y planificación, sigue siendo cuestionable. En este artículo, presentamos AlphaLLM para la automejora de los LLMs, que integra la Búsqueda de Árbol de Monte Carlo (MCTS, por sus siglas en inglés) con los LLMs para establecer un ciclo de automejora, mejorando así las capacidades de los LLMs sin necesidad de anotaciones adicionales. Inspirados por el éxito de AlphaGo, AlphaLLM aborda los desafíos únicos de combinar MCTS con LLM para la automejora, incluyendo la escasez de datos, la inmensidad de los espacios de búsqueda en tareas de lenguaje y la naturaleza subjetiva de la retroalimentación en estas tareas. AlphaLLM está compuesto por un componente de síntesis de *prompts*, un enfoque eficiente de MCTS adaptado para tareas de lenguaje y un trío de modelos críticos para proporcionar retroalimentación precisa. Nuestros resultados experimentales en tareas de razonamiento matemático demuestran que AlphaLLM mejora significativamente el rendimiento de los LLMs sin anotaciones adicionales, mostrando el potencial de la automejora en los LLMs.
English
Despite the impressive capabilities of Large Language Models (LLMs) on
various tasks, they still struggle with scenarios that involves complex
reasoning and planning. Recent work proposed advanced prompting techniques and
the necessity of fine-tuning with high-quality data to augment LLMs' reasoning
abilities. However, these approaches are inherently constrained by data
availability and quality. In light of this, self-correction and self-learning
emerge as viable solutions, employing strategies that allow LLMs to refine
their outputs and learn from self-assessed rewards. Yet, the efficacy of LLMs
in self-refining its response, particularly in complex reasoning and planning
task, remains dubious. In this paper, we introduce AlphaLLM for the
self-improvements of LLMs, which integrates Monte Carlo Tree Search (MCTS) with
LLMs to establish a self-improving loop, thereby enhancing the capabilities of
LLMs without additional annotations. Drawing inspiration from the success of
AlphaGo, AlphaLLM addresses the unique challenges of combining MCTS with LLM
for self-improvement, including data scarcity, the vastness search spaces of
language tasks, and the subjective nature of feedback in language tasks.
AlphaLLM is comprised of prompt synthesis component, an efficient MCTS approach
tailored for language tasks, and a trio of critic models for precise feedback.
Our experimental results in mathematical reasoning tasks demonstrate that
AlphaLLM significantly enhances the performance of LLMs without additional
annotations, showing the potential for self-improvement in LLMs.Summary
AI-Generated Summary