ChatPaper.aiChatPaper

Réglage par décalage d'état : Réglage efficace des paramètres basé sur l'état pour les modèles à espace d'états

State-offset Tuning: State-based Parameter-Efficient Fine-Tuning for State Space Models

March 5, 2025
Auteurs: Wonjun Kang, Kevin Galim, Yuchen Zeng, Minjae Lee, Hyung Il Koo, Nam Ik Cho
cs.AI

Résumé

Les modèles à espace d'états (State Space Models, SSMs) se sont imposés comme des alternatives efficaces aux Transformers, réduisant leur coût computationnel quadratique. Cependant, l'application des méthodes de réglage fin à paramètres efficaces (Parameter-Efficient Fine-Tuning, PEFT) aux SSMs reste largement inexplorée. En particulier, les méthodes basées sur des prompts, comme le Prompt Tuning et le Prefix-Tuning, largement utilisées dans les Transformers, ne donnent pas de bons résultats sur les SSMs. Pour remédier à cela, nous proposons des méthodes basées sur l'état comme une alternative supérieure aux méthodes basées sur des prompts. Cette nouvelle famille de méthodes découle naturellement des caractéristiques architecturales des SSMs. Les méthodes basées sur l'état ajustent directement les caractéristiques liées à l'état plutôt que de dépendre de prompts externes. De plus, nous introduisons une nouvelle méthode PEFT basée sur l'état : le State-offset Tuning. À chaque pas de temps, notre méthode influence directement l'état à l'étape courante, conduisant à une adaptation plus efficace. À travers des expériences approfondies sur divers ensembles de données, nous démontrons l'efficacité de notre méthode. Le code est disponible à l'adresse https://github.com/furiosa-ai/ssm-state-tuning.
English
State Space Models (SSMs) have emerged as efficient alternatives to Transformers, mitigating their quadratic computational cost. However, the application of Parameter-Efficient Fine-Tuning (PEFT) methods to SSMs remains largely unexplored. In particular, prompt-based methods like Prompt Tuning and Prefix-Tuning, which are widely used in Transformers, do not perform well on SSMs. To address this, we propose state-based methods as a superior alternative to prompt-based methods. This new family of methods naturally stems from the architectural characteristics of SSMs. State-based methods adjust state-related features directly instead of depending on external prompts. Furthermore, we introduce a novel state-based PEFT method: State-offset Tuning. At every timestep, our method directly affects the state at the current step, leading to more effective adaptation. Through extensive experiments across diverse datasets, we demonstrate the effectiveness of our method. Code is available at https://github.com/furiosa-ai/ssm-state-tuning.

Summary

AI-Generated Summary

PDF52March 11, 2025