ChatPaper.aiChatPaper

Языковые модели - это скрытые рассудители: разблокирование латентных рассуждений через само-награждение.

Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding

November 6, 2024
Авторы: Haolin Chen, Yihao Feng, Zuxin Liu, Weiran Yao, Akshara Prabhakar, Shelby Heinecke, Ricky Ho, Phil Mui, Silvio Savarese, Caiming Xiong, Huan Wang
cs.AI

Аннотация

Большие языковые модели (LLM) продемонстрировали впечатляющие возможности, но все еще испытывают трудности с выполнением сложных задач рассуждения, требующих нескольких шагов. В то время как методы на основе подсказок, такие как Chain-of-Thought (CoT), могут улучшить рассуждения LLM во время вывода, оптимизация возможностей рассуждения во время обучения остается сложной задачей. Мы представляем LaTent Reasoning Optimization (LaTRO), принципиальную структуру, которая формулирует рассуждения как выбор из скрытого распределения и оптимизирует его с помощью вариационных подходов. LaTRO позволяет LLM одновременно улучшать как свой процесс рассуждения, так и способность оценивать качество рассуждений, не требуя внешней обратной связи или моделей вознаграждения. Мы проверяем LaTRO через эксперименты на наборах данных GSM8K и ARC-Challenge с использованием нескольких архитектур моделей. На GSM8K LaTRO улучшает точность нулевого прогона в среднем на 12,5% по сравнению с базовыми моделями и на 9,6% по сравнению с обучением с учителем по моделям Phi-3.5-mini, Mistral-7B и Llama-3.1-8B. Наши результаты свидетельствуют о том, что предварительно обученные LLM обладают скрытыми способностями к рассуждению, которые могут быть разблокированы и улучшены с помощью предложенного нами подхода оптимизации самосовершенствования. Код LaTRO доступен по адресу https://github.com/SalesforceAIResearch/LaTRO.
English
Large language models (LLMs) have shown impressive capabilities, but still struggle with complex reasoning tasks requiring multiple steps. While prompt-based methods like Chain-of-Thought (CoT) can improve LLM reasoning at inference time, optimizing reasoning capabilities during training remains challenging. We introduce LaTent Reasoning Optimization (LaTRO), a principled framework that formulates reasoning as sampling from a latent distribution and optimizes it via variational approaches. LaTRO enables LLMs to concurrently improve both their reasoning process and ability to evaluate reasoning quality, without requiring external feedback or reward models. We validate LaTRO through experiments on GSM8K and ARC-Challenge datasets using multiple model architectures. On GSM8K, LaTRO improves zero-shot accuracy by an average of 12.5% over base models and 9.6% over supervised fine-tuning across Phi-3.5-mini, Mistral-7B, and Llama-3.1-8B. Our findings suggest that pre-trained LLMs possess latent reasoning capabilities that can be unlocked and enhanced through our proposed optimization approach in a self-improvement manner. The code of LaTRO is available at https://github.com/SalesforceAIResearch/LaTRO.

Summary

AI-Generated Summary

PDF362November 14, 2024