Масштабирование вычислений во время тестирования с использованием скрытого рассуждения: рекуррентный подход в глубинуScaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth
Approach
Мы изучаем новую архитектуру языковой модели, способную масштабировать вычисления на этапе тестирования путем неявного рассуждения в скрытом пространстве. Наша модель работает путем итерации рекуррентного блока, раскрываясь до произвольной глубины на этапе тестирования. Это в отличие от основных моделей рассуждения, которые увеличивают вычисления путем создания большего количества токенов. В отличие от подходов, основанных на цепочке мыслей, наш подход не требует специализированных обучающих данных, может работать с небольшими окнами контекста и способен улавливать типы рассуждений, которые не так легко представить словами. Мы масштабируем модель концепции-доказательства до 3,5 миллиарда параметров и 800 миллиардов токенов. Мы показываем, что полученная модель может улучшить свою производительность на бенчмарках рассуждения, иногда драматически, до вычислительной нагрузки, эквивалентной 50 миллиардам параметров.