S0-afstemming: Nul-overhead aanpassing van hybride recurrentie-attentiemodellen

Samenvatting

Met ongeveer 48 uitgevoerde en geverifieerde HumanEval-trainingsoplossingen presteert het afstemmen van een enkele initiële toestandsmatrix per recurrente laag, zonder inference-overhead, 10,8 procentpunt beter dan LoRA (p < 0,001) op HumanEval. De methode, die we S0-tuning noemen, optimaliseert één toestandsmatrix per recurrente laag terwijl alle modelgewichten worden bevroren. Op Qwen3.5-4B (GatedDeltaNet-hybride) verbetert S0-tuning de greedy pass@1 met +23,6 +/- 1,7 pp (10 seeds). Op FalconH1-7B (Mamba-2-hybride) bereikt S0-tuning 71,8% +/- 1,3 en LoRA 71,4% +/- 2,4 (3 seeds), statistisch niet te onderscheiden bij deze steekproefgrootte, zonder gewichtsmerging. Cross-domeintransfer is significant op MATH-500 (+4,8 pp, p = 0,00002, 8 seeds) en GSM8K (+2,8 pp, p = 0,0003, 10 seeds); een text-to-SQL-benchmark (Spider) toont geen transfer, in overeenstemming met het trajectory-steering-mechanisme. Een prefix-tuning-controle op een pure Transformer (Qwen2.5-3B) verslechtert de prestaties met -13,9 pp onder alle negen geteste configuraties. Op Qwen3.5 bereikt een per-stap state-offset-variant +27,1 pp, hoger dan zowel S0-tuning als LoRA, maar met inference-kosten per stap. Samen genomen tonen de resultaten aan dat initialisatie van de recurrente toestand een sterk PEFT-oppervlak is zonder inference-overhead voor hybride taalmodelen wanneer geverifieerde supervisie schaars is. De afgestemde toestand is een bestand van ~48 MB; taskwisseling vereist geen gewichtsmerging of modelherlading. Code en bibliotheek: https://github.com/jackyoung27/s0-tuning.

English

Using roughly 48 execution-verified HumanEval training solutions, tuning a single initial state matrix per recurrent layer, with zero inference overhead, outperforms LoRA by +10.8 pp (p < 0.001) on HumanEval. The method, which we call S0 tuning, optimizes one state matrix per recurrent layer while freezing all model weights. On Qwen3.5-4B (GatedDeltaNet hybrid), S0 tuning improves greedy pass@1 by +23.6 +/- 1.7 pp (10 seeds). On FalconH1-7B (Mamba-2 hybrid), S0 reaches 71.8% +/- 1.3 and LoRA reaches 71.4% +/- 2.4 (3 seeds), statistically indistinguishable at this sample size while requiring no weight merging. Cross-domain transfer is significant on MATH-500 (+4.8 pp, p = 0.00002, 8 seeds) and GSM8K (+2.8 pp, p = 0.0003, 10 seeds); a text-to-SQL benchmark (Spider) shows no transfer, consistent with the trajectory-steering mechanism. A prefix-tuning control on a pure Transformer (Qwen2.5-3B) degrades performance by -13.9 pp under all nine configurations tested. On Qwen3.5, a per-step state-offset variant reaches +27.1 pp, above both S0 and LoRA but with per-step inference cost. Taken together, the results show that recurrent state initialization is a strong zero-inference-overhead PEFT surface for hybrid language models when verified supervision is scarce. The tuned state is a ~48 MB file; task switching requires no weight merging or model reload. Code and library: https://github.com/jackyoung27/s0-tuning.

S0-afstemming: Nul-overhead aanpassing van hybride recurrentie-attentiemodellen

S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

Samenvatting

Support