Dar um Passo Atrás para Saltar para Frente: Auto-Retrocesso para Impulsionar o Raciocínio de Modelos de Linguagem
Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models
February 6, 2025
Autores: Xiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li
cs.AI
Resumo
A integração de mecanismos de pensamento lento em grandes modelos de linguagem (LLMs) oferece um caminho promissor para alcançar Reasoners AGI de Nível 2, como exemplificado por sistemas como o o1 da OpenAI. No entanto, vários desafios significativos ainda permanecem, incluindo o pensamento excessivo ineficiente e uma superdependência em modelos de recompensa auxiliares. Destacamos que essas limitações derivam da incapacidade dos LLMs de internalizar o processo de busca, um componente-chave do raciocínio eficaz. Um passo crítico para abordar essa questão é capacitar os LLMs a determinar autonomamente quando e onde retroceder, uma operação fundamental em algoritmos de busca tradicionais. Para isso, propomos um mecanismo de retrocesso automático que dota os LLMs da capacidade de retroceder tanto durante o treinamento quanto durante a inferência. Esse mecanismo não apenas aprimora a capacidade de raciocínio, mas também a eficiência, transformando processos de pensamento lento em pensamento rápido por meio do autoaperfeiçoamento. Avaliações empíricas demonstram que nossa proposta melhora significativamente as capacidades de raciocínio dos LLMs, alcançando um ganho de desempenho de mais de 40% em comparação com o método de ajuste fino supervisionado do caminho ótimo. Acreditamos que este estudo introduz um caminho novo e promissor para o desenvolvimento de Reasoners mais avançados e robustos.
English
The integration of slow-thinking mechanisms into large language models (LLMs)
offers a promising way toward achieving Level 2 AGI Reasoners, as exemplified
by systems like OpenAI's o1. However, several significant challenges remain,
including inefficient overthinking and an overreliance on auxiliary reward
models. We point out that these limitations stem from LLMs' inability to
internalize the search process, a key component of effective reasoning. A
critical step toward addressing this issue is enabling LLMs to autonomously
determine when and where to backtrack, a fundamental operation in traditional
search algorithms. To this end, we propose a self-backtracking mechanism that
equips LLMs with the ability to backtrack during both training and inference.
This mechanism not only enhances reasoning ability but also efficiency by
transforming slow-thinking processes into fast-thinking through
self-improvement. Empirical evaluations demonstrate that our proposal
significantly enhances the reasoning capabilities of LLMs, achieving a
performance gain of over 40 percent compared to the optimal-path supervised
fine-tuning method. We believe this study introduces a novel and promising
pathway for developing more advanced and robust Reasoners.Summary
AI-Generated Summary