Los Modelos de Lenguaje son Razonadores Ocultos: Desbloqueando Capacidades de Razonamiento Latente a través de la Auto-Recompensa
Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding
November 6, 2024
Autores: Haolin Chen, Yihao Feng, Zuxin Liu, Weiran Yao, Akshara Prabhakar, Shelby Heinecke, Ricky Ho, Phil Mui, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) han demostrado capacidades impresionantes, pero aún enfrentan dificultades con tareas de razonamiento complejas que requieren múltiples pasos. Mientras que los métodos basados en indicaciones como Cadena de Pensamiento (CoT) pueden mejorar el razonamiento de LLM durante la inferencia, optimizar las capacidades de razonamiento durante el entrenamiento sigue siendo un desafío. Presentamos LaTent Reasoning Optimization (LaTRO), un marco principista que formula el razonamiento como muestreo de una distribución latente y lo optimiza a través de enfoques variacionales. LaTRO permite a los LLMs mejorar simultáneamente su proceso de razonamiento y su capacidad para evaluar la calidad del razonamiento, sin necesidad de retroalimentación externa o modelos de recompensa. Validamos LaTRO a través de experimentos en los conjuntos de datos GSM8K y ARC-Challenge utilizando múltiples arquitecturas de modelos. En GSM8K, LaTRO mejora la precisión de cero disparos en un promedio del 12.5% sobre los modelos base y 9.6% sobre el ajuste fino supervisado en Phi-3.5-mini, Mistral-7B y Llama-3.1-8B. Nuestros hallazgos sugieren que los LLMs pre-entrenados poseen capacidades de razonamiento latentes que pueden ser desbloqueadas y mejoradas a través de nuestro enfoque de optimización propuesto de manera auto-mejorativa. El código de LaTRO está disponible en https://github.com/SalesforceAIResearch/LaTRO.
English
Large language models (LLMs) have shown impressive capabilities, but still
struggle with complex reasoning tasks requiring multiple steps. While
prompt-based methods like Chain-of-Thought (CoT) can improve LLM reasoning at
inference time, optimizing reasoning capabilities during training remains
challenging. We introduce LaTent Reasoning Optimization (LaTRO), a principled
framework that formulates reasoning as sampling from a latent distribution and
optimizes it via variational approaches. LaTRO enables LLMs to concurrently
improve both their reasoning process and ability to evaluate reasoning quality,
without requiring external feedback or reward models. We validate LaTRO through
experiments on GSM8K and ARC-Challenge datasets using multiple model
architectures. On GSM8K, LaTRO improves zero-shot accuracy by an average of
12.5% over base models and 9.6% over supervised fine-tuning across
Phi-3.5-mini, Mistral-7B, and Llama-3.1-8B. Our findings suggest that
pre-trained LLMs possess latent reasoning capabilities that can be unlocked and
enhanced through our proposed optimization approach in a self-improvement
manner. The code of LaTRO is available at
https://github.com/SalesforceAIResearch/LaTRO.Summary
AI-Generated Summary