Het trainen van grote taalmodellen om te redeneren in een continue latente ruimte

Samenvatting

Grote taalmodellen (LLM's) zijn beperkt tot redeneren in de "taalruimte", waar ze doorgaans het redeneerproces uitdrukken met een keten van gedachten (CoT) om een complex redeneerprobleem op te lossen. We betogen echter dat de taalruimte niet altijd optimaal is voor redeneren. Zo zijn de meeste woordtokens voornamelijk voor tekstuele samenhang en niet essentieel voor redeneren, terwijl sommige kritieke tokens complexe planning vereisen en enorme uitdagingen vormen voor LLM's. Om het potentieel van LLM-redeneren te verkennen in een onbeperkte latente ruimte in plaats van natuurlijke taal te gebruiken, introduceren we een nieuw paradigma Coconut (Keten van Continue Gedachte). We gebruiken de laatste verborgen toestand van de LLM als een representatie van de redeneertoestand (genaamd "continue gedachte"). In plaats van dit te decoderen tot een woordtoken, voeren we het direct terug naar de LLM als de daaropvolgende invoer-embedding in de continue ruimte. Experimenten tonen aan dat Coconut effectief de LLM kan versterken bij verschillende redeneertaken. Dit nieuwe latente redeneerparadigma leidt tot opkomende geavanceerde redeneerpatronen: de continue gedachte kan meerdere alternatieve volgende redeneerstappen coderen, waardoor het model een breedte-eerst zoeken (BFS) kan uitvoeren om het probleem op te lossen, in plaats van zich vroegtijdig te committeren aan een enkel deterministisch pad zoals CoT. Coconut presteert beter dan CoT bij bepaalde logische redeneertaken die aanzienlijke terugtracking vereisen tijdens de planning, met minder denktokens tijdens inferentie. Deze bevindingen tonen de belofte van latente redenering en bieden waardevolle inzichten voor toekomstig onderzoek.

English

Large language models (LLMs) are restricted to reason in the "language space", where they typically express the reasoning process with a chain-of-thought (CoT) to solve a complex reasoning problem. However, we argue that language space may not always be optimal for reasoning. For example, most word tokens are primarily for textual coherence and not essential for reasoning, while some critical tokens require complex planning and pose huge challenges to LLMs. To explore the potential of LLM reasoning in an unrestricted latent space instead of using natural language, we introduce a new paradigm Coconut (Chain of Continuous Thought). We utilize the last hidden state of the LLM as a representation of the reasoning state (termed "continuous thought"). Rather than decoding this into a word token, we feed it back to the LLM as the subsequent input embedding directly in the continuous space. Experiments show that Coconut can effectively augment the LLM on several reasoning tasks. This novel latent reasoning paradigm leads to emergent advanced reasoning patterns: the continuous thought can encode multiple alternative next reasoning steps, allowing the model to perform a breadth-first search (BFS) to solve the problem, rather than prematurely committing to a single deterministic path like CoT. Coconut outperforms CoT in certain logical reasoning tasks that require substantial backtracking during planning, with fewer thinking tokens during inference. These findings demonstrate the promise of latent reasoning and offer valuable insights for future research.

Het trainen van grote taalmodellen om te redeneren in een continue latente ruimte

Training Large Language Models to Reason in a Continuous Latent Space

Samenvatting

Support