ChatPaper.aiChatPaper

Aumentando a Computação no Tempo de Teste com Raciocínio Latente: Uma Abordagem de Profundidade Recorrente

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

February 7, 2025
Autores: Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein
cs.AI

Resumo

Estudamos uma arquitetura de modelo de linguagem inovadora capaz de escalar a computação no momento do teste por meio de raciocínio implícito no espaço latente. Nosso modelo funciona iterando um bloco recorrente, desenrolando-se assim para profundidades arbitrárias no momento do teste. Isso contrasta com os modelos de raciocínio convencionais que aumentam a computação produzindo mais tokens. Ao contrário das abordagens baseadas em encadeamento de pensamentos, nossa abordagem não requer nenhum dado de treinamento especializado, pode trabalhar com janelas de contexto pequenas e pode capturar tipos de raciocínio que não são facilmente representados em palavras. Escalonamos um modelo de prova de conceito para 3,5 bilhões de parâmetros e 800 bilhões de tokens. Mostramos que o modelo resultante pode melhorar seu desempenho em benchmarks de raciocínio, às vezes de forma dramática, até uma carga de computação equivalente a 50 bilhões de parâmetros.
English
We study a novel language model architecture that is capable of scaling test-time computation by implicitly reasoning in latent space. Our model works by iterating a recurrent block, thereby unrolling to arbitrary depth at test-time. This stands in contrast to mainstream reasoning models that scale up compute by producing more tokens. Unlike approaches based on chain-of-thought, our approach does not require any specialized training data, can work with small context windows, and can capture types of reasoning that are not easily represented in words. We scale a proof-of-concept model to 3.5 billion parameters and 800 billion tokens. We show that the resulting model can improve its performance on reasoning benchmarks, sometimes dramatically, up to a computation load equivalent to 50 billion parameters.

Summary

AI-Generated Summary

PDF14012February 10, 2025