Treinando Modelos de Linguagem Grandes para Raciocinar em um Espaço Latente ContínuoTraining Large Language Models to Reason in a Continuous Latent Space
Os modelos de linguagem de grande escala (LLMs) estão restritos a raciocinar no "espaço da linguagem", onde normalmente expressam o processo de raciocínio com uma cadeia de pensamento (CoT) para resolver um problema de raciocínio complexo. No entanto, argumentamos que o espaço da linguagem nem sempre pode ser o mais adequado para o raciocínio. Por exemplo, a maioria dos tokens de palavras são principalmente para a coerência textual e não essenciais para o raciocínio, enquanto alguns tokens críticos exigem um planejamento complexo e representam enormes desafios para os LLMs. Para explorar o potencial do raciocínio dos LLMs em um espaço latente irrestrito em vez de usar linguagem natural, introduzimos um novo paradigma chamado Coconut (Cadeia de Pensamento Contínuo). Utilizamos o último estado oculto do LLM como representação do estado de raciocínio (denominado "pensamento contínuo"). Em vez de decodificá-lo em um token de palavra, o alimentamos de volta ao LLM como o embedding de entrada subsequente diretamente no espaço contínuo. Experimentos mostram que o Coconut pode aumentar efetivamente o desempenho do LLM em várias tarefas de raciocínio. Esse novo paradigma de raciocínio latente resulta em padrões de raciocínio avançados emergentes: o pensamento contínuo pode codificar múltiplas etapas de raciocínio seguintes alternativas, permitindo que o modelo execute uma busca em largura (BFS) para resolver o problema, em vez de se comprometer prematuramente com um único caminho determinístico como o CoT. O Coconut supera o CoT em certas tarefas de raciocínio lógico que exigem um retrocesso substancial durante o planejamento, com menos tokens de pensamento durante a inferência. Essas descobertas demonstram a promessa do raciocínio latente e oferecem insights valiosos para pesquisas futuras.