S0-Tuning: Null-Overhead-Anpassung hybrider Rekurrenz-Attentions-Modelle

Zusammenfassung

Unter Verwendung von etwa 48 ausgeführungsverifizierten HumanEval-Trainingslösungen übertrifft das Tunen einer einzelnen initialen Zustandsmatrix pro rekurrenter Schicht – ohne Inferenz-Overhead – LoRA um +10,8 Prozentpunkte (p < 0,001) auf HumanEval. Die Methode, die wir S0-Tuning nennen, optimiert eine Zustandsmatrix pro rekurrenter Schicht, während alle Modellgewichte eingefroren werden. Bei Qwen3.5-4B (GatedDeltaNet-Hybrid) verbessert S0-Tuning den greedy pass@1 um +23,6 +/- 1,7 Prozentpunkte (10 Seeds). Bei FalconH1-7B (Mamba-2-Hybrid) erreicht S0 71,8 % +/- 1,3 und LoRA 71,4 % +/- 2,4 (3 Seeds), was bei dieser Stichprobengröße statistisch nicht unterscheidbar ist, jedoch ohne Gewichtsmerging auskommt. Der domänenübergreifende Transfer ist signifikant auf MATH-500 (+4,8 pp, p = 0,00002, 8 Seeds) und GSM8K (+2,8 pp, p = 0,0003, 10 Seeds); ein Text-zu-SQL-Benchmark (Spider) zeigt keinen Transfer, was mit dem Trajektoriensteuerungsmechanismus konsistent ist. Eine Prefix-Tuning-Kontrollgruppe bei einem reinen Transformer (Qwen2.5-3B) verschlechtert die Leistung unter allen neun getesteten Konfigurationen um -13,9 pp. Bei Qwen3.5 erreicht eine Variante mit schrittweisem Zustands-Offset +27,1 pp, was über S0 und LoRA liegt, jedoch mit schrittweisem Inferenzaufwand. Zusammengenommen zeigen die Ergebnisse, dass die Initialisierung rekurrenter Zustände eine starke PEFT-Oberfläche ohne Inferenz-Overhead für hybride Sprachmodelle ist, wenn verifizierte Supervision knapp ist. Der getunte Zustand ist eine ~48 MB große Datei; Task-Switching erfordert kein Gewichtsmerging oder Modellneuladen. Code und Bibliothek: https://github.com/jackyoung27/s0-tuning.

English

Using roughly 48 execution-verified HumanEval training solutions, tuning a single initial state matrix per recurrent layer, with zero inference overhead, outperforms LoRA by +10.8 pp (p < 0.001) on HumanEval. The method, which we call S0 tuning, optimizes one state matrix per recurrent layer while freezing all model weights. On Qwen3.5-4B (GatedDeltaNet hybrid), S0 tuning improves greedy pass@1 by +23.6 +/- 1.7 pp (10 seeds). On FalconH1-7B (Mamba-2 hybrid), S0 reaches 71.8% +/- 1.3 and LoRA reaches 71.4% +/- 2.4 (3 seeds), statistically indistinguishable at this sample size while requiring no weight merging. Cross-domain transfer is significant on MATH-500 (+4.8 pp, p = 0.00002, 8 seeds) and GSM8K (+2.8 pp, p = 0.0003, 10 seeds); a text-to-SQL benchmark (Spider) shows no transfer, consistent with the trajectory-steering mechanism. A prefix-tuning control on a pure Transformer (Qwen2.5-3B) degrades performance by -13.9 pp under all nine configurations tested. On Qwen3.5, a per-step state-offset variant reaches +27.1 pp, above both S0 and LoRA but with per-step inference cost. Taken together, the results show that recurrent state initialization is a strong zero-inference-overhead PEFT surface for hybrid language models when verified supervision is scarce. The tuned state is a ~48 MB file; task switching requires no weight merging or model reload. Code and library: https://github.com/jackyoung27/s0-tuning.

S0-Tuning: Null-Overhead-Anpassung hybrider Rekurrenz-Attentions-Modelle

S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

Zusammenfassung

Support