S0 Tuning: Adattamento a Sovrapposizione Zero di Modelli Ibridi Ricorrenti-Attentivi

Abstract

Utilizzando circa 48 soluzioni di training HumanEval verificate per l'esecuzione, l'ottimizzazione di una singola matrice di stato iniziale per strato ricorrente, con overhead di inferenza nullo, supera LoRA di +10,8 punti percentuali (p < 0,001) su HumanEval. Il metodo, che chiamiamo S0 tuning, ottimizza una matrice di stato per strato ricorrente mantenendo congelati tutti i pesi del modello. Su Qwen3.5-4B (ibrido GatedDeltaNet), l'S0 tuning migliora la pass@1 greedy di +23,6 +/- 1,7 pp (10 seed). Su FalconH1-7B (ibrido Mamba-2), S0 raggiunge il 71,8% +/- 1,3 e LoRA raggiunge il 71,4% +/- 2,4 (3 seed), risultati statisticamente indistinguibili con questo campione pur non richiedendo fusione di pesi. Il trasferimento cross-dominio è significativo su MATH-500 (+4,8 pp, p = 0,00002, 8 seed) e GSM8K (+2,8 pp, p = 0,0003, 10 seed); un benchmark text-to-SQL (Spider) non mostra trasferimento, coerentemente con il meccanismo di trajectory-steering. Un controllo con prefix-tuning su un Transformer puro (Qwen2.5-3B) degrada le prestazioni di -13,9 pp in tutte le nove configurazioni testate. Su Qwen3.5, una variante per-step con offset di stato raggiunge +27,1 pp, superando sia S0 che LoRA ma con un costo di inferenza per step. Nel complesso, i risultati mostrano che l'inizializzazione dello stato ricorrente è una solida superficie PEFT a overhead di inferenza nullo per modelli linguistici ibridi quando la supervisione verificata è scarsa. Lo stato ottimizzato è un file di ~48 MB; il cambio di task non richiede fusione di pesi o ricaricamento del modello. Codice e libreria: https://github.com/jackyoung27/s0-tuning.

English

Using roughly 48 execution-verified HumanEval training solutions, tuning a single initial state matrix per recurrent layer, with zero inference overhead, outperforms LoRA by +10.8 pp (p < 0.001) on HumanEval. The method, which we call S0 tuning, optimizes one state matrix per recurrent layer while freezing all model weights. On Qwen3.5-4B (GatedDeltaNet hybrid), S0 tuning improves greedy pass@1 by +23.6 +/- 1.7 pp (10 seeds). On FalconH1-7B (Mamba-2 hybrid), S0 reaches 71.8% +/- 1.3 and LoRA reaches 71.4% +/- 2.4 (3 seeds), statistically indistinguishable at this sample size while requiring no weight merging. Cross-domain transfer is significant on MATH-500 (+4.8 pp, p = 0.00002, 8 seeds) and GSM8K (+2.8 pp, p = 0.0003, 10 seeds); a text-to-SQL benchmark (Spider) shows no transfer, consistent with the trajectory-steering mechanism. A prefix-tuning control on a pure Transformer (Qwen2.5-3B) degrades performance by -13.9 pp under all nine configurations tested. On Qwen3.5, a per-step state-offset variant reaches +27.1 pp, above both S0 and LoRA but with per-step inference cost. Taken together, the results show that recurrent state initialization is a strong zero-inference-overhead PEFT surface for hybrid language models when verified supervision is scarce. The tuned state is a ~48 MB file; task switching requires no weight merging or model reload. Code and library: https://github.com/jackyoung27/s0-tuning.

S0 Tuning: Adattamento a Sovrapposizione Zero di Modelli Ibridi Ricorrenti-Attentivi

S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

Abstract

Support