Het trainen van grote taalmodellen om te redeneren in een continue latente ruimteTraining Large Language Models to Reason in a Continuous Latent Space
Grote taalmodellen (LLM's) zijn beperkt tot redeneren in de "taalruimte", waar ze doorgaans het redeneerproces uitdrukken met een keten van gedachten (CoT) om een complex redeneerprobleem op te lossen. We betogen echter dat de taalruimte niet altijd optimaal is voor redeneren. Zo zijn de meeste woordtokens voornamelijk voor tekstuele samenhang en niet essentieel voor redeneren, terwijl sommige kritieke tokens complexe planning vereisen en enorme uitdagingen vormen voor LLM's. Om het potentieel van LLM-redeneren te verkennen in een onbeperkte latente ruimte in plaats van natuurlijke taal te gebruiken, introduceren we een nieuw paradigma Coconut (Keten van Continue Gedachte). We gebruiken de laatste verborgen toestand van de LLM als een representatie van de redeneertoestand (genaamd "continue gedachte"). In plaats van dit te decoderen tot een woordtoken, voeren we het direct terug naar de LLM als de daaropvolgende invoer-embedding in de continue ruimte. Experimenten tonen aan dat Coconut effectief de LLM kan versterken bij verschillende redeneertaken. Dit nieuwe latente redeneerparadigma leidt tot opkomende geavanceerde redeneerpatronen: de continue gedachte kan meerdere alternatieve volgende redeneerstappen coderen, waardoor het model een breedte-eerst zoeken (BFS) kan uitvoeren om het probleem op te lossen, in plaats van zich vroegtijdig te committeren aan een enkel deterministisch pad zoals CoT. Coconut presteert beter dan CoT bij bepaalde logische redeneertaken die aanzienlijke terugtracking vereisen tijdens de planning, met minder denktokens tijdens inferentie. Deze bevindingen tonen de belofte van latente redenering en bieden waardevolle inzichten voor toekomstig onderzoek.