Обучение к обучению во время тестирования: РНС с выразительными скрытыми состояниями
Learning to (Learn at Test Time): RNNs with Expressive Hidden States
July 5, 2024
Авторы: Yu Sun, Xinhao Li, Karan Dalal, Jiarui Xu, Arjun Vikram, Genghan Zhang, Yann Dubois, Xinlei Chen, Xiaolong Wang, Sanmi Koyejo, Tatsunori Hashimoto, Carlos Guestrin
cs.AI
Аннотация
Механизм самовнимания хорошо справляется с длинным контекстом, но имеет квадратичную сложность. Существующие слои РНС имеют линейную сложность, однако их производительность в длинном контексте ограничена выразительной способностью скрытого состояния. Мы предлагаем новый класс слоев моделирования последовательностей с линейной сложностью и выразительным скрытым состоянием. Основная идея заключается в том, чтобы сделать скрытое состояние самостоятельной моделью машинного обучения, а правило обновления - шагом самообучения. Поскольку скрытое состояние обновляется обучением даже на тестовых последовательностях, наши слои называются слоями обучения во время тестирования (TTT). Мы рассматриваем два варианта: TTT-Linear и TTT-MLP, скрытое состояние которых представляет собой линейную модель и многослойный персептрон соответственно. Мы оцениваем наши варианты на масштабе от 125 миллионов до 1,3 миллиарда параметров, сравнивая с мощным трансформером и Мамбой, современной РНС. Как TTT-Linear, так и TTT-MLP соответствуют или превосходят базовые показатели. Подобно трансформеру, они могут продолжать снижать перплексию, условиями на большее количество токенов, в то время как Мамба не может после 16 тыс. контекста. После предварительной оптимизации систем TTT-Linear уже быстрее трансформера на 8 тыс. контексте и соответствует Мамбе по времени работы. TTT-MLP все еще сталкивается с проблемами ввода-вывода памяти, но показывает больший потенциал в длинном контексте, указывая на перспективное направление для будущих исследований.
English
Self-attention performs well in long context but has quadratic complexity.
Existing RNN layers have linear complexity, but their performance in long
context is limited by the expressive power of their hidden state. We propose a
new class of sequence modeling layers with linear complexity and an expressive
hidden state. The key idea is to make the hidden state a machine learning model
itself, and the update rule a step of self-supervised learning. Since the
hidden state is updated by training even on test sequences, our layers are
called Test-Time Training (TTT) layers. We consider two instantiations:
TTT-Linear and TTT-MLP, whose hidden state is a linear model and a two-layer
MLP respectively. We evaluate our instantiations at the scale of 125M to 1.3B
parameters, comparing with a strong Transformer and Mamba, a modern RNN. Both
TTT-Linear and TTT-MLP match or exceed the baselines. Similar to Transformer,
they can keep reducing perplexity by conditioning on more tokens, while Mamba
cannot after 16k context. With preliminary systems optimization, TTT-Linear is
already faster than Transformer at 8k context and matches Mamba in wall-clock
time. TTT-MLP still faces challenges in memory I/O, but shows larger potential
in long context, pointing to a promising direction for future research.Summary
AI-Generated Summary