Réglage par décalage d'état : Réglage efficace des paramètres basé sur l'état pour les modèles à espace d'états
State-offset Tuning: State-based Parameter-Efficient Fine-Tuning for State Space Models
March 5, 2025
Auteurs: Wonjun Kang, Kevin Galim, Yuchen Zeng, Minjae Lee, Hyung Il Koo, Nam Ik Cho
cs.AI
Résumé
Les modèles à espace d'états (State Space Models, SSMs) se sont imposés comme des alternatives efficaces aux Transformers, réduisant leur coût computationnel quadratique. Cependant, l'application des méthodes de réglage fin à paramètres efficaces (Parameter-Efficient Fine-Tuning, PEFT) aux SSMs reste largement inexplorée. En particulier, les méthodes basées sur des prompts, comme le Prompt Tuning et le Prefix-Tuning, largement utilisées dans les Transformers, ne donnent pas de bons résultats sur les SSMs. Pour remédier à cela, nous proposons des méthodes basées sur l'état comme une alternative supérieure aux méthodes basées sur des prompts. Cette nouvelle famille de méthodes découle naturellement des caractéristiques architecturales des SSMs. Les méthodes basées sur l'état ajustent directement les caractéristiques liées à l'état plutôt que de dépendre de prompts externes. De plus, nous introduisons une nouvelle méthode PEFT basée sur l'état : le State-offset Tuning. À chaque pas de temps, notre méthode influence directement l'état à l'étape courante, conduisant à une adaptation plus efficace. À travers des expériences approfondies sur divers ensembles de données, nous démontrons l'efficacité de notre méthode. Le code est disponible à l'adresse https://github.com/furiosa-ai/ssm-state-tuning.
English
State Space Models (SSMs) have emerged as efficient alternatives to
Transformers, mitigating their quadratic computational cost. However, the
application of Parameter-Efficient Fine-Tuning (PEFT) methods to SSMs remains
largely unexplored. In particular, prompt-based methods like Prompt Tuning and
Prefix-Tuning, which are widely used in Transformers, do not perform well on
SSMs. To address this, we propose state-based methods as a superior alternative
to prompt-based methods. This new family of methods naturally stems from the
architectural characteristics of SSMs. State-based methods adjust state-related
features directly instead of depending on external prompts. Furthermore, we
introduce a novel state-based PEFT method: State-offset Tuning. At every
timestep, our method directly affects the state at the current step, leading to
more effective adaptation. Through extensive experiments across diverse
datasets, we demonstrate the effectiveness of our method. Code is available at
https://github.com/furiosa-ai/ssm-state-tuning.Summary
AI-Generated Summary