Raciocínio Latente em Escala por meio de Modelos de Linguagem em Loop

Resumo

Os modelos de linguagem modernos são treinados para "pensar" principalmente através da geração explícita de texto, como a cadeia de pensamento (CoT), que adia o raciocínio para o pós-treinamento e subutiliza os dados de pré-treinamento. Apresentamos e disponibilizamos em código aberto o Ouro, nomeado em referência ao recursivo Ouroboros, uma família de Modelos de Linguagem em Loop (LoopLM) pré-treinados que, em vez disso, incorporam o raciocínio na fase de pré-treinamento através de (i) computação iterativa no espaço latente, (ii) um objetivo com regularização de entropia para alocação de profundidade aprendida, e (iii) escalabilidade para 7,7 trilhões de tokens. Os modelos Ouro 1.4B e 2.6B apresentam desempenho superior, equiparando-se aos resultados de LLMs de última geração de até 12B em uma ampla gama de benchmarks. Por meio de experimentos controlados, demonstramos que essa vantagem não decorre de uma maior capacidade de conhecimento, mas de capacidades superiores de manipulação de conhecimento. Também mostramos que o LoopLM produz traços de raciocínio mais alinhados com as saídas finais do que a CoT explícita. Esperamos que nossos resultados demonstrem o potencial do LoopLM como uma nova direção de escalabilidade na era do raciocínio. Nosso modelo pode ser encontrado em: http://ouro-llm.github.io.

English

Modern LLMs are trained to "think" primarily via explicit text generation, such as chain-of-thought (CoT), which defers reasoning to post-training and under-leverages pre-training data. We present and open-source Ouro, named after the recursive Ouroboros, a family of pre-trained Looped Language Models (LoopLM) that instead build reasoning into the pre-training phase through (i) iterative computation in latent space, (ii) an entropy-regularized objective for learned depth allocation, and (iii) scaling to 7.7T tokens. Ouro 1.4B and 2.6B models enjoy superior performance that match the results of up to 12B SOTA LLMs across a wide range of benchmarks. Through controlled experiments, we show this advantage stems not from increased knowledge capacity, but from superior knowledge manipulation capabilities. We also show that LoopLM yields reasoning traces more aligned with final outputs than explicit CoT. We hope our results show the potential of LoopLM as a novel scaling direction in the reasoning era. Our model could be found in: http://ouro-llm.github.io.

Raciocínio Latente em Escala por meio de Modelos de Linguagem em Loop

Scaling Latent Reasoning via Looped Language Models

Resumo

Support