ChatPaper.aiChatPaper

Entrenamiento de Modelos de Lenguaje Grandes para Razonar en un Espacio Latente Continuo

Training Large Language Models to Reason in a Continuous Latent Space

December 9, 2024
Autores: Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian
cs.AI

Resumen

Los modelos de lenguaje grandes (LLMs) están limitados a razonar en el "espacio del lenguaje", donde típicamente expresan el proceso de razonamiento con una cadena de pensamiento (CoT) para resolver un problema de razonamiento complejo. Sin embargo, argumentamos que el espacio del lenguaje no siempre es óptimo para el razonamiento. Por ejemplo, la mayoría de los tokens de palabras son principalmente para coherencia textual y no esenciales para el razonamiento, mientras que algunos tokens críticos requieren una planificación compleja y plantean enormes desafíos para los LLMs. Para explorar el potencial del razonamiento de LLM en un espacio latente no restringido en lugar de utilizar lenguaje natural, introducimos un nuevo paradigma llamado Coconut (Cadena de Pensamiento Continuo). Utilizamos el último estado oculto del LLM como representación del estado de razonamiento (llamado "pensamiento continuo"). En lugar de decodificar esto en un token de palabra, lo alimentamos de vuelta al LLM como la incrustación de entrada subsiguiente directamente en el espacio continuo. Los experimentos muestran que Coconut puede mejorar efectivamente el LLM en varias tareas de razonamiento. Este novedoso paradigma de razonamiento latente conduce a patrones de razonamiento avanzados emergentes: el pensamiento continuo puede codificar múltiples pasos de razonamiento siguientes alternativos, lo que permite al modelo realizar una búsqueda en anchura (BFS) para resolver el problema, en lugar de comprometerse prematuramente con un único camino determinista como CoT. Coconut supera a CoT en ciertas tareas de razonamiento lógico que requieren un retroceso sustancial durante la planificación, con menos tokens de pensamiento durante la inferencia. Estos hallazgos demuestran la promesa del razonamiento latente y ofrecen valiosas perspectivas para futuras investigaciones.
English
Large language models (LLMs) are restricted to reason in the "language space", where they typically express the reasoning process with a chain-of-thought (CoT) to solve a complex reasoning problem. However, we argue that language space may not always be optimal for reasoning. For example, most word tokens are primarily for textual coherence and not essential for reasoning, while some critical tokens require complex planning and pose huge challenges to LLMs. To explore the potential of LLM reasoning in an unrestricted latent space instead of using natural language, we introduce a new paradigm Coconut (Chain of Continuous Thought). We utilize the last hidden state of the LLM as a representation of the reasoning state (termed "continuous thought"). Rather than decoding this into a word token, we feed it back to the LLM as the subsequent input embedding directly in the continuous space. Experiments show that Coconut can effectively augment the LLM on several reasoning tasks. This novel latent reasoning paradigm leads to emergent advanced reasoning patterns: the continuous thought can encode multiple alternative next reasoning steps, allowing the model to perform a breadth-first search (BFS) to solve the problem, rather than prematurely committing to a single deterministic path like CoT. Coconut outperforms CoT in certain logical reasoning tasks that require substantial backtracking during planning, with fewer thinking tokens during inference. These findings demonstrate the promise of latent reasoning and offer valuable insights for future research.

Summary

AI-Generated Summary

PDF857December 10, 2024