S0-тюнинг: Безнакладная адаптация гибридных рекуррентно-аттенционных моделей

Аннотация

Используя примерно 48 проверенных на выполнение обучающих решений HumanEval, настройка единой матрицы начального состояния на каждый рекуррентный слой, с нулевыми вычислительными затратами на inference, превосходит LoRA на +10.8 п.п. (p < 0.001) на наборе HumanEval. Этот метод, который мы называем S0-настройкой, оптимизирует одну матрицу состояния на каждый рекуррентный слой, в то время как все веса модели замораживаются. На модели Qwen3.5-4B (гибрид GatedDeltaNet) S0-настройка улучшает показатель greedy pass@1 на +23.6 +/- 1.7 п.п. (10 сидов). На модели FalconH1-7B (гибрид Mamba-2) S0 достигает 71.8% +/- 1.3, а LoRA — 71.4% +/- 2.4 (3 сида), что статистически неразличимо при данном объеме выборки, при этом S0 не требует слияния весов. Междоменный перенос значителен на MATH-500 (+4.8 п.п., p = 0.00002, 8 сидов) и GSM8K (+2.8 п.п., p = 0.0003, 10 сидов); на бенчмарке text-to-SQL (Spider) перенос не наблюдается, что согласуется с механизмом управления траекторией. Контрольный эксперимент с prefix-tuning на чистом трансформере (Qwen2.5-3B) ухудшает производительность на -13.9 п.п. во всех девяти тестируемых конфигурациях. На Qwen3.5 вариант с поправочным смещением состояния на каждом шаге достигает +27.1 п.п., превосходя как S0, так и LoRA, но с вычислительными затратами на каждом шаге inference. В совокупности результаты показывают, что инициализация рекуррентного состояния является мощным методом параметр-эффективной тонкой настройки (PEFT) с нулевыми затратами на inference для гибридных языковых моделей, когда проверенных данных для обучения мало. Настроенное состояние представляет собой файл размером ~48 МБ; переключение между задачами не требует слияния весов или перезагрузки модели. Код и библиотека: https://github.com/jackyoung27/s0-tuning.

English

Using roughly 48 execution-verified HumanEval training solutions, tuning a single initial state matrix per recurrent layer, with zero inference overhead, outperforms LoRA by +10.8 pp (p < 0.001) on HumanEval. The method, which we call S0 tuning, optimizes one state matrix per recurrent layer while freezing all model weights. On Qwen3.5-4B (GatedDeltaNet hybrid), S0 tuning improves greedy pass@1 by +23.6 +/- 1.7 pp (10 seeds). On FalconH1-7B (Mamba-2 hybrid), S0 reaches 71.8% +/- 1.3 and LoRA reaches 71.4% +/- 2.4 (3 seeds), statistically indistinguishable at this sample size while requiring no weight merging. Cross-domain transfer is significant on MATH-500 (+4.8 pp, p = 0.00002, 8 seeds) and GSM8K (+2.8 pp, p = 0.0003, 10 seeds); a text-to-SQL benchmark (Spider) shows no transfer, consistent with the trajectory-steering mechanism. A prefix-tuning control on a pure Transformer (Qwen2.5-3B) degrades performance by -13.9 pp under all nine configurations tested. On Qwen3.5, a per-step state-offset variant reaches +27.1 pp, above both S0 and LoRA but with per-step inference cost. Taken together, the results show that recurrent state initialization is a strong zero-inference-overhead PEFT surface for hybrid language models when verified supervision is scarce. The tuned state is a ~48 MB file; task switching requires no weight merging or model reload. Code and library: https://github.com/jackyoung27/s0-tuning.

S0-тюнинг: Безнакладная адаптация гибридных рекуррентно-аттенционных моделей

S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

Аннотация

Support