S0 Réglage : Adaptation sans surcharge des modèles hybrides récurrents-attentionnels

Résumé

En utilisant environ 48 solutions d'entraînement HumanEval vérifiées par exécution, le réglage d'une seule matrice d'état initiale par couche récurrente, sans surcharge d'inférence, surpasse LoRA de +10,8 points de pourcentage (p < 0,001) sur HumanEval. La méthode, que nous appelons réglage S0, optimise une matrice d'état par couche récurrente tout en gelant tous les poids du modèle. Sur Qwen3.5-4B (hybride GatedDeltaNet), le réglage S0 améliore le pass@1 glouton de +23,6 +/- 1,7 pp (10 seeds). Sur FalconH1-7B (hybride Mamba-2), S0 atteint 71,8 % +/- 1,3 et LoRA atteint 71,4 % +/- 2,4 (3 seeds), une différence statistiquement non significative pour cet échantillon tout en ne nécessitant aucune fusion de poids. Le transfert interdomaine est significatif sur MATH-500 (+4,8 pp, p = 0,00002, 8 seeds) et GSM8K (+2,8 pp, p = 0,0003, 10 seeds) ; un benchmark text-to-SQL (Spider) ne montre aucun transfert, ce qui est cohérent avec le mécanisme de guidage de trajectoire. Un contrôle par préfix-tuning sur un Transformer pur (Qwen2.5-3B) dégrade les performances de -13,9 pp dans les neuf configurations testées. Sur Qwen3.5, une variante à décalage d'état par étape atteint +27,1 pp, dépassant à la fois S0 et LoRA mais avec un coût d'inférence par étape. Pris ensemble, ces résultats montrent que l'initialisation de l'état récurrent est une surface PEFT forte sans surcharge d'inférence pour les modèles de langage hybrides lorsque la supervision vérifiée est rare. L'état réglé est un fichier d'environ 48 Mo ; le changement de tâche ne nécessite ni fusion de poids ni rechargement du modèle. Code et bibliothèque : https://github.com/jackyoung27/s0-tuning.

English

Using roughly 48 execution-verified HumanEval training solutions, tuning a single initial state matrix per recurrent layer, with zero inference overhead, outperforms LoRA by +10.8 pp (p < 0.001) on HumanEval. The method, which we call S0 tuning, optimizes one state matrix per recurrent layer while freezing all model weights. On Qwen3.5-4B (GatedDeltaNet hybrid), S0 tuning improves greedy pass@1 by +23.6 +/- 1.7 pp (10 seeds). On FalconH1-7B (Mamba-2 hybrid), S0 reaches 71.8% +/- 1.3 and LoRA reaches 71.4% +/- 2.4 (3 seeds), statistically indistinguishable at this sample size while requiring no weight merging. Cross-domain transfer is significant on MATH-500 (+4.8 pp, p = 0.00002, 8 seeds) and GSM8K (+2.8 pp, p = 0.0003, 10 seeds); a text-to-SQL benchmark (Spider) shows no transfer, consistent with the trajectory-steering mechanism. A prefix-tuning control on a pure Transformer (Qwen2.5-3B) degrades performance by -13.9 pp under all nine configurations tested. On Qwen3.5, a per-step state-offset variant reaches +27.1 pp, above both S0 and LoRA but with per-step inference cost. Taken together, the results show that recurrent state initialization is a strong zero-inference-overhead PEFT surface for hybrid language models when verified supervision is scarce. The tuned state is a ~48 MB file; task switching requires no weight merging or model reload. Code and library: https://github.com/jackyoung27/s0-tuning.

S0 Réglage : Adaptation sans surcharge des modèles hybrides récurrents-attentionnels

S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

Résumé

Support