ChatPaper.aiChatPaper

Retroceder para avanzar: Auto-retroceso para potenciar el razonamiento de los Modelos de Lenguaje

Step Back to Leap Forward: Self-Backtracking for Boosting Reasoning of Language Models

February 6, 2025
Autores: Xiao-Wen Yang, Xuan-Yi Zhu, Wen-Da Wei, Ding-Chu Zhang, Jie-Jing Shao, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li
cs.AI

Resumen

La integración de mecanismos de pensamiento lento en modelos de lenguaje grandes (LLMs) ofrece un camino prometedor hacia la consecución de Reasoners AGI de Nivel 2, como se ejemplifica en sistemas como el o1 de OpenAI. Sin embargo, persisten varios desafíos significativos, incluyendo el sobrepensamiento ineficiente y una excesiva dependencia de modelos de recompensa auxiliares. Se señala que estas limitaciones derivan de la incapacidad de los LLMs para internalizar el proceso de búsqueda, un componente clave del razonamiento efectivo. Un paso crítico para abordar este problema es habilitar a los LLMs para determinar de manera autónoma cuándo y dónde retroceder, una operación fundamental en algoritmos de búsqueda tradicionales. Con este fin, proponemos un mecanismo de retroceso automático que dota a los LLMs con la capacidad de retroceder tanto durante el entrenamiento como en la inferencia. Este mecanismo no solo mejora la capacidad de razonamiento, sino también la eficiencia al transformar procesos de pensamiento lento en pensamiento rápido a través de la auto-mejora. Evaluaciones empíricas demuestran que nuestra propuesta mejora significativamente las capacidades de razonamiento de los LLMs, logrando un aumento de rendimiento de más del 40 por ciento en comparación con el método de ajuste fino supervisado de la ruta óptima. Creemos que este estudio introduce un camino novedoso y prometedor para desarrollar Reasoners más avanzados y robustos.
English
The integration of slow-thinking mechanisms into large language models (LLMs) offers a promising way toward achieving Level 2 AGI Reasoners, as exemplified by systems like OpenAI's o1. However, several significant challenges remain, including inefficient overthinking and an overreliance on auxiliary reward models. We point out that these limitations stem from LLMs' inability to internalize the search process, a key component of effective reasoning. A critical step toward addressing this issue is enabling LLMs to autonomously determine when and where to backtrack, a fundamental operation in traditional search algorithms. To this end, we propose a self-backtracking mechanism that equips LLMs with the ability to backtrack during both training and inference. This mechanism not only enhances reasoning ability but also efficiency by transforming slow-thinking processes into fast-thinking through self-improvement. Empirical evaluations demonstrate that our proposal significantly enhances the reasoning capabilities of LLMs, achieving a performance gain of over 40 percent compared to the optimal-path supervised fine-tuning method. We believe this study introduces a novel and promising pathway for developing more advanced and robust Reasoners.

Summary

AI-Generated Summary

PDF242February 10, 2025