ChatPaper.aiChatPaper

Шаг назад для прыжка вперед: самостоятельное откатывание для улучшения рассуждений моделей языка

Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models

February 6, 2025
Авторы: Xiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li
cs.AI

Аннотация

Интеграция механизмов медленного мышления в большие языковые модели (LLM) предлагает многообещающий путь к достижению Разумных ИИ уровня 2, как это продемонстрировано системами, например, o1 от OpenAI. Однако остаются несколько значительных проблем, включая неэффективное чрезмерное размышление и чрезмерную зависимость от вспомогательных моделей вознаграждения. Мы указываем, что эти ограничения происходят из неспособности LLM внутренне осознавать процесс поиска, ключевого компонента эффективного рассуждения. Критическим шагом к решению этой проблемы является предоставление LLM возможности автономно определять моменты и места отката, фундаментальной операции в традиционных алгоритмах поиска. В этой связи мы предлагаем механизм самоотката, который дает LLM возможность откатываться как во время обучения, так и во время вывода. Этот механизм не только улучшает способность к рассуждениям, но и эффективность, превращая медленные процессы мышления в быстрые через самосовершенствование. Эмпирические оценки показывают, что наше предложение значительно улучшает способности к рассуждениям LLM, достигая прироста производительности более чем на 40 процентов по сравнению с методом оптимизации по оптимальному пути с учителем. Мы считаем, что данное исследование представляет собой новый и многообещающий путь для развития более продвинутых и надежных Разумных ИИ.
English
The integration of slow-thinking mechanisms into large language models (LLMs) offers a promising way toward achieving Level 2 AGI Reasoners, as exemplified by systems like OpenAI's o1. However, several significant challenges remain, including inefficient overthinking and an overreliance on auxiliary reward models. We point out that these limitations stem from LLMs' inability to internalize the search process, a key component of effective reasoning. A critical step toward addressing this issue is enabling LLMs to autonomously determine when and where to backtrack, a fundamental operation in traditional search algorithms. To this end, we propose a self-backtracking mechanism that equips LLMs with the ability to backtrack during both training and inference. This mechanism not only enhances reasoning ability but also efficiency by transforming slow-thinking processes into fast-thinking through self-improvement. Empirical evaluations demonstrate that our proposal significantly enhances the reasoning capabilities of LLMs, achieving a performance gain of over 40 percent compared to the optimal-path supervised fine-tuning method. We believe this study introduces a novel and promising pathway for developing more advanced and robust Reasoners.

Summary

AI-Generated Summary

PDF242February 10, 2025