ChatPaper.aiChatPaper

Escalando el Cálculo en Tiempo de Prueba con Razonamiento Latente: Un Enfoque de Profundidad Recurrente

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

February 7, 2025
Autores: Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein
cs.AI

Resumen

Estudiamos una arquitectura novedosa de modelo de lenguaje capaz de escalar la computación en tiempo de prueba razonando implícitamente en un espacio latente. Nuestro modelo funciona mediante la iteración de un bloque recurrente, desplegándose a una profundidad arbitraria en el momento de la prueba. Esto contrasta con los modelos de razonamiento convencionales que escalan la computación produciendo más tokens. A diferencia de enfoques basados en cadenas de pensamiento, nuestro enfoque no requiere datos de entrenamiento especializados, puede trabajar con ventanas de contexto pequeñas y puede capturar tipos de razonamiento que no se representan fácilmente en palabras. Escalamos un modelo de prueba de concepto a 3.5 mil millones de parámetros y 800 mil millones de tokens. Mostramos que el modelo resultante puede mejorar su rendimiento en pruebas de razonamiento, a veces de manera drástica, hasta una carga computacional equivalente a 50 mil millones de parámetros.
English
We study a novel language model architecture that is capable of scaling test-time computation by implicitly reasoning in latent space. Our model works by iterating a recurrent block, thereby unrolling to arbitrary depth at test-time. This stands in contrast to mainstream reasoning models that scale up compute by producing more tokens. Unlike approaches based on chain-of-thought, our approach does not require any specialized training data, can work with small context windows, and can capture types of reasoning that are not easily represented in words. We scale a proof-of-concept model to 3.5 billion parameters and 800 billion tokens. We show that the resulting model can improve its performance on reasoning benchmarks, sometimes dramatically, up to a computation load equivalent to 50 billion parameters.

Summary

AI-Generated Summary

PDF14012February 10, 2025