Entrenamiento de Modelos de Lenguaje Grandes para Razonar en un Espacio Latente Continuo
Training Large Language Models to Reason in a Continuous Latent Space
December 9, 2024
Autores: Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian
cs.AI
Resumen
Los modelos de lenguaje grandes (LLMs) están limitados a razonar en el "espacio del lenguaje", donde típicamente expresan el proceso de razonamiento con una cadena de pensamiento (CoT) para resolver un problema de razonamiento complejo. Sin embargo, argumentamos que el espacio del lenguaje no siempre es óptimo para el razonamiento. Por ejemplo, la mayoría de los tokens de palabras son principalmente para coherencia textual y no esenciales para el razonamiento, mientras que algunos tokens críticos requieren una planificación compleja y plantean enormes desafíos para los LLMs. Para explorar el potencial del razonamiento de LLM en un espacio latente no restringido en lugar de utilizar lenguaje natural, introducimos un nuevo paradigma llamado Coconut (Cadena de Pensamiento Continuo). Utilizamos el último estado oculto del LLM como representación del estado de razonamiento (llamado "pensamiento continuo"). En lugar de decodificar esto en un token de palabra, lo alimentamos de vuelta al LLM como la incrustación de entrada subsiguiente directamente en el espacio continuo. Los experimentos muestran que Coconut puede mejorar efectivamente el LLM en varias tareas de razonamiento. Este novedoso paradigma de razonamiento latente conduce a patrones de razonamiento avanzados emergentes: el pensamiento continuo puede codificar múltiples pasos de razonamiento siguientes alternativos, lo que permite al modelo realizar una búsqueda en anchura (BFS) para resolver el problema, en lugar de comprometerse prematuramente con un único camino determinista como CoT. Coconut supera a CoT en ciertas tareas de razonamiento lógico que requieren un retroceso sustancial durante la planificación, con menos tokens de pensamiento durante la inferencia. Estos hallazgos demuestran la promesa del razonamiento latente y ofrecen valiosas perspectivas para futuras investigaciones.
English
Large language models (LLMs) are restricted to reason in the "language
space", where they typically express the reasoning process with a
chain-of-thought (CoT) to solve a complex reasoning problem. However, we argue
that language space may not always be optimal for reasoning. For example, most
word tokens are primarily for textual coherence and not essential for
reasoning, while some critical tokens require complex planning and pose huge
challenges to LLMs. To explore the potential of LLM reasoning in an
unrestricted latent space instead of using natural language, we introduce a new
paradigm Coconut (Chain of Continuous Thought). We utilize the last hidden
state of the LLM as a representation of the reasoning state (termed "continuous
thought"). Rather than decoding this into a word token, we feed it back to the
LLM as the subsequent input embedding directly in the continuous space.
Experiments show that Coconut can effectively augment the LLM on several
reasoning tasks. This novel latent reasoning paradigm leads to emergent
advanced reasoning patterns: the continuous thought can encode multiple
alternative next reasoning steps, allowing the model to perform a breadth-first
search (BFS) to solve the problem, rather than prematurely committing to a
single deterministic path like CoT. Coconut outperforms CoT in certain logical
reasoning tasks that require substantial backtracking during planning, with
fewer thinking tokens during inference. These findings demonstrate the promise
of latent reasoning and offer valuable insights for future research.Summary
AI-Generated Summary