State-offset Tuning: Ottimizzazione Efficiente dei Parametri Basata sullo Stato per Modelli Spaziali di Stato
State-offset Tuning: State-based Parameter-Efficient Fine-Tuning for State Space Models
March 5, 2025
Autori: Wonjun Kang, Kevin Galim, Yuchen Zeng, Minjae Lee, Hyung Il Koo, Nam Ik Cho
cs.AI
Abstract
I modelli a spazio di stato (SSM) sono emersi come alternative efficienti ai Transformer, mitigando il loro costo computazionale quadratico. Tuttavia, l'applicazione di metodi di fine-tuning efficiente in termini di parametri (PEFT) agli SSM rimane in gran parte inesplorata. In particolare, i metodi basati su prompt come Prompt Tuning e Prefix-Tuning, ampiamente utilizzati nei Transformer, non performano bene sugli SSM. Per affrontare questo problema, proponiamo metodi basati sullo stato come alternativa superiore ai metodi basati su prompt. Questa nuova famiglia di metodi deriva naturalmente dalle caratteristiche architetturali degli SSM. I metodi basati sullo stato modificano direttamente le caratteristiche legate allo stato invece di dipendere da prompt esterni. Inoltre, introduciamo un nuovo metodo PEFT basato sullo stato: State-offset Tuning. A ogni passo temporale, il nostro metodo influisce direttamente sullo stato al passo corrente, portando a un adattamento più efficace. Attraverso esperimenti estesi su diversi dataset, dimostriamo l'efficacia del nostro metodo. Il codice è disponibile all'indirizzo https://github.com/furiosa-ai/ssm-state-tuning.
English
State Space Models (SSMs) have emerged as efficient alternatives to
Transformers, mitigating their quadratic computational cost. However, the
application of Parameter-Efficient Fine-Tuning (PEFT) methods to SSMs remains
largely unexplored. In particular, prompt-based methods like Prompt Tuning and
Prefix-Tuning, which are widely used in Transformers, do not perform well on
SSMs. To address this, we propose state-based methods as a superior alternative
to prompt-based methods. This new family of methods naturally stems from the
architectural characteristics of SSMs. State-based methods adjust state-related
features directly instead of depending on external prompts. Furthermore, we
introduce a novel state-based PEFT method: State-offset Tuning. At every
timestep, our method directly affects the state at the current step, leading to
more effective adaptation. Through extensive experiments across diverse
datasets, we demonstrate the effectiveness of our method. Code is available at
https://github.com/furiosa-ai/ssm-state-tuning.Summary
AI-Generated Summary