Addestramento di Grandi Modelli Linguistici per Ragionare in uno Spazio Latente ContinuoTraining Large Language Models to Reason in a Continuous Latent Space
I grandi modelli linguistici (LLM) sono limitati a ragionare nello "spazio linguistico", dove esprimono tipicamente il processo di ragionamento con una catena di pensiero (CoT) per risolvere un problema di ragionamento complesso. Tuttavia, sosteniamo che lo spazio linguistico potrebbe non essere sempre ottimale per il ragionamento. Ad esempio, la maggior parte dei token delle parole sono principalmente per la coerenza testuale e non essenziali per il ragionamento, mentre alcuni token critici richiedono una pianificazione complessa e pongono enormi sfide ai LLM. Per esplorare il potenziale del ragionamento dei LLM in uno spazio latente non limitato all'uso del linguaggio naturale, introduciamo un nuovo paradigma denominato Coconut (Catena di Pensiero Continuo). Utilizziamo lo stato nascosto finale del LLM come rappresentazione dello stato di ragionamento (chiamato "pensiero continuo"). Piuttosto che decodificarlo in un token di parola, lo reinseriamo nel LLM come incorporamento dell'input successivo direttamente nello spazio continuo. Gli esperimenti mostrano che Coconut può efficacemente potenziare il LLM su diversi compiti di ragionamento. Questo nuovo paradigma di ragionamento latente porta a modelli di ragionamento avanzati emergenti: il pensiero continuo può codificare più alternative passaggi di ragionamento successivi, consentendo al modello di eseguire una ricerca in ampiezza (BFS) per risolvere il problema, anziché impegnarsi prematuramente in un singolo percorso deterministico come CoT. Coconut supera CoT in certi compiti di ragionamento logico che richiedono un notevole backtracking durante la pianificazione, con meno token di pensiero durante l'inferezza. Queste scoperte dimostrano la promessa del ragionamento latente e offrono preziose intuizioni per la ricerca futura.