ChatPaper.aiChatPaper

Dar um Passo Atrás para Saltar para Frente: Auto-Retrocesso para Impulsionar o Raciocínio de Modelos de Linguagem

Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models

February 6, 2025
Autores: Xiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li
cs.AI

Resumo

A integração de mecanismos de pensamento lento em grandes modelos de linguagem (LLMs) oferece um caminho promissor para alcançar Reasoners AGI de Nível 2, como exemplificado por sistemas como o o1 da OpenAI. No entanto, vários desafios significativos ainda permanecem, incluindo o pensamento excessivo ineficiente e uma superdependência em modelos de recompensa auxiliares. Destacamos que essas limitações derivam da incapacidade dos LLMs de internalizar o processo de busca, um componente-chave do raciocínio eficaz. Um passo crítico para abordar essa questão é capacitar os LLMs a determinar autonomamente quando e onde retroceder, uma operação fundamental em algoritmos de busca tradicionais. Para isso, propomos um mecanismo de retrocesso automático que dota os LLMs da capacidade de retroceder tanto durante o treinamento quanto durante a inferência. Esse mecanismo não apenas aprimora a capacidade de raciocínio, mas também a eficiência, transformando processos de pensamento lento em pensamento rápido por meio do autoaperfeiçoamento. Avaliações empíricas demonstram que nossa proposta melhora significativamente as capacidades de raciocínio dos LLMs, alcançando um ganho de desempenho de mais de 40% em comparação com o método de ajuste fino supervisionado do caminho ótimo. Acreditamos que este estudo introduz um caminho novo e promissor para o desenvolvimento de Reasoners mais avançados e robustos.
English
The integration of slow-thinking mechanisms into large language models (LLMs) offers a promising way toward achieving Level 2 AGI Reasoners, as exemplified by systems like OpenAI's o1. However, several significant challenges remain, including inefficient overthinking and an overreliance on auxiliary reward models. We point out that these limitations stem from LLMs' inability to internalize the search process, a key component of effective reasoning. A critical step toward addressing this issue is enabling LLMs to autonomously determine when and where to backtrack, a fundamental operation in traditional search algorithms. To this end, we propose a self-backtracking mechanism that equips LLMs with the ability to backtrack during both training and inference. This mechanism not only enhances reasoning ability but also efficiency by transforming slow-thinking processes into fast-thinking through self-improvement. Empirical evaluations demonstrate that our proposal significantly enhances the reasoning capabilities of LLMs, achieving a performance gain of over 40 percent compared to the optimal-path supervised fine-tuning method. We believe this study introduces a novel and promising pathway for developing more advanced and robust Reasoners.

Summary

AI-Generated Summary

PDF242February 10, 2025