Понимание и устранение узких мест моделей пространства состояний через призму недавности и переусреднения.
Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing
December 31, 2024
Авторы: Peihao Wang, Ruisi Cai, Yuehao Wang, Jiajun Zhu, Pragya Srivastava, Zhangyang Wang, Pan Li
cs.AI
Аннотация
Структурированные модели пространства состояний (SSM) стали альтернативой трансформерам. В то время как SSM часто считаются эффективными в улавливании зависимостей в длинных последовательностях, мы строго демонстрируем, что они имеют врожденное ограничение из-за сильного биаса к недавним событиям. Наши эмпирические исследования также показывают, что этот биас ухудшает способность моделей к воспоминанию дальней информации и вносит проблемы устойчивости. Наши масштабируемые эксперименты затем выявили, что более глубокие структуры в SSM могут облегчить изучение длинных контекстов. Однако последующий теоретический анализ показывает, что по мере увеличения глубины SSM они проявляют еще одну неизбежную тенденцию к излишнему сглаживанию, например, представления токенов становятся все более неотличимыми. Эта фундаментальная дилемма между биасом к недавним событиям и излишним сглаживанием препятствует масштабируемости существующих SSM. Вдохновленные нашими теоретическими результатами, мы предлагаем поляризовать два канала матриц перехода состояний в SSM, устанавливая их в ноль и единицу соответственно, одновременно решая проблемы биаса к недавним событиям и излишнего сглаживания. Эксперименты показывают, что наша техника поляризации последовательно улучшает точность ассоциативного воспоминания токенов на больших расстояниях и открывает для SSM возможность дальнейшего извлечения пользы из более глубоких архитектур. Все исходные коды доступны по ссылке https://github.com/VITA-Group/SSM-Bottleneck.
English
Structured State Space Models (SSMs) have emerged as alternatives to
transformers. While SSMs are often regarded as effective in capturing
long-sequence dependencies, we rigorously demonstrate that they are inherently
limited by strong recency bias. Our empirical studies also reveal that this
bias impairs the models' ability to recall distant information and introduces
robustness issues. Our scaling experiments then discovered that deeper
structures in SSMs can facilitate the learning of long contexts. However,
subsequent theoretical analysis reveals that as SSMs increase in depth, they
exhibit another inevitable tendency toward over-smoothing, e.g., token
representations becoming increasingly indistinguishable. This fundamental
dilemma between recency and over-smoothing hinders the scalability of existing
SSMs. Inspired by our theoretical findings, we propose to polarize two channels
of the state transition matrices in SSMs, setting them to zero and one,
respectively, simultaneously addressing recency bias and over-smoothing.
Experiments demonstrate that our polarization technique consistently enhances
the associative recall accuracy of long-range tokens and unlocks SSMs to
benefit further from deeper architectures. All source codes are released at
https://github.com/VITA-Group/SSM-Bottleneck.Summary
AI-Generated Summary