Шаг назад для прыжка вперед: самостоятельное откатывание для улучшения рассуждений моделей языка
Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models
February 6, 2025
Авторы: Xiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li
cs.AI
Аннотация
Интеграция механизмов медленного мышления в большие языковые модели (LLM) предлагает многообещающий путь к достижению Разумных ИИ уровня 2, как это продемонстрировано системами, например, o1 от OpenAI. Однако остаются несколько значительных проблем, включая неэффективное чрезмерное размышление и чрезмерную зависимость от вспомогательных моделей вознаграждения. Мы указываем, что эти ограничения происходят из неспособности LLM внутренне осознавать процесс поиска, ключевого компонента эффективного рассуждения. Критическим шагом к решению этой проблемы является предоставление LLM возможности автономно определять моменты и места отката, фундаментальной операции в традиционных алгоритмах поиска. В этой связи мы предлагаем механизм самоотката, который дает LLM возможность откатываться как во время обучения, так и во время вывода. Этот механизм не только улучшает способность к рассуждениям, но и эффективность, превращая медленные процессы мышления в быстрые через самосовершенствование. Эмпирические оценки показывают, что наше предложение значительно улучшает способности к рассуждениям LLM, достигая прироста производительности более чем на 40 процентов по сравнению с методом оптимизации по оптимальному пути с учителем. Мы считаем, что данное исследование представляет собой новый и многообещающий путь для развития более продвинутых и надежных Разумных ИИ.
English
The integration of slow-thinking mechanisms into large language models (LLMs)
offers a promising way toward achieving Level 2 AGI Reasoners, as exemplified
by systems like OpenAI's o1. However, several significant challenges remain,
including inefficient overthinking and an overreliance on auxiliary reward
models. We point out that these limitations stem from LLMs' inability to
internalize the search process, a key component of effective reasoning. A
critical step toward addressing this issue is enabling LLMs to autonomously
determine when and where to backtrack, a fundamental operation in traditional
search algorithms. To this end, we propose a self-backtracking mechanism that
equips LLMs with the ability to backtrack during both training and inference.
This mechanism not only enhances reasoning ability but also efficiency by
transforming slow-thinking processes into fast-thinking through
self-improvement. Empirical evaluations demonstrate that our proposal
significantly enhances the reasoning capabilities of LLMs, achieving a
performance gain of over 40 percent compared to the optimal-path supervised
fine-tuning method. We believe this study introduces a novel and promising
pathway for developing more advanced and robust Reasoners.Summary
AI-Generated Summary