ChatPaper.aiChatPaper

Масштабирование вычислений во время тестирования с использованием скрытого рассуждения: рекуррентный подход в глубину

Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

February 7, 2025
Авторы: Jonas Geiping, Sean McLeish, Neel Jain, John Kirchenbauer, Siddharth Singh, Brian R. Bartoldson, Bhavya Kailkhura, Abhinav Bhatele, Tom Goldstein
cs.AI

Аннотация

Мы изучаем новую архитектуру языковой модели, способную масштабировать вычисления на этапе тестирования путем неявного рассуждения в скрытом пространстве. Наша модель работает путем итерации рекуррентного блока, раскрываясь до произвольной глубины на этапе тестирования. Это в отличие от основных моделей рассуждения, которые увеличивают вычисления путем создания большего количества токенов. В отличие от подходов, основанных на цепочке мыслей, наш подход не требует специализированных обучающих данных, может работать с небольшими окнами контекста и способен улавливать типы рассуждений, которые не так легко представить словами. Мы масштабируем модель концепции-доказательства до 3,5 миллиарда параметров и 800 миллиардов токенов. Мы показываем, что полученная модель может улучшить свою производительность на бенчмарках рассуждения, иногда драматически, до вычислительной нагрузки, эквивалентной 50 миллиардам параметров.
English
We study a novel language model architecture that is capable of scaling test-time computation by implicitly reasoning in latent space. Our model works by iterating a recurrent block, thereby unrolling to arbitrary depth at test-time. This stands in contrast to mainstream reasoning models that scale up compute by producing more tokens. Unlike approaches based on chain-of-thought, our approach does not require any specialized training data, can work with small context windows, and can capture types of reasoning that are not easily represented in words. We scale a proof-of-concept model to 3.5 billion parameters and 800 billion tokens. We show that the resulting model can improve its performance on reasoning benchmarks, sometimes dramatically, up to a computation load equivalent to 50 billion parameters.

Summary

AI-Generated Summary

PDF14012February 10, 2025