S0 Tuning: Adaptação de Modelos Híbridos de Recorrência-Atenção com Sobrecarga Zero

Resumo

Utilizando aproximadamente 48 soluções de treinamento do HumanEval verificadas por execução, o ajuste de uma única matriz de estado inicial por camada recorrente, sem sobrecarga de inferência, supera o LoRA em +10,8 pp (p < 0,001) no HumanEval. O método, que denominamos de S0 tuning, otimiza uma matriz de estado por camada recorrente enquanto mantém congelados todos os pesos do modelo. No Qwen3.5-4B (híbrido GatedDeltaNet), o S0 tuning melhora o pass@1 greedy em +23,6 +/- 1,7 pp (10 *seeds*). No FalconH1-7B (híbrido Mamba-2), o S0 atinge 71,8% +/- 1,3 e o LoRA atinge 71,4% +/- 2,4 (3 *seeds*), estatisticamente indistinguíveis neste tamanho de amostra, sem exigir fusão de pesos. A transferência de domínio cruzado é significativa no MATH-500 (+4,8 pp, p = 0,00002, 8 *seeds*) e no GSM8K (+2,8 pp, p = 0,0003, 10 *seeds*); uma avaliação de texto para SQL (Spider) não mostra transferência, consistente com o mecanismo de direcionamento de trajetória. Um controle de prefix-tuning em um Transformer puro (Qwen2.5-3B) degrada o desempenho em -13,9 pp em todas as nove configurações testadas. No Qwen3.5, uma variante de *offset* de estado por passo alcança +27,1 pp, acima tanto do S0 quanto do LoRA, mas com custo de inferência por passo. Em conjunto, os resultados mostram que a inicialização do estado recorrente é uma superfície de PEFT forte e sem sobrecarga de inferência para modelos de linguagem híbridos quando a supervisão verificada é escassa. O estado ajustado é um arquivo de ~48 MB; a troca de tarefas não requer fusão de pesos ou recarga do modelo. Código e biblioteca: https://github.com/jackyoung27/s0-tuning.

English

Using roughly 48 execution-verified HumanEval training solutions, tuning a single initial state matrix per recurrent layer, with zero inference overhead, outperforms LoRA by +10.8 pp (p < 0.001) on HumanEval. The method, which we call S0 tuning, optimizes one state matrix per recurrent layer while freezing all model weights. On Qwen3.5-4B (GatedDeltaNet hybrid), S0 tuning improves greedy pass@1 by +23.6 +/- 1.7 pp (10 seeds). On FalconH1-7B (Mamba-2 hybrid), S0 reaches 71.8% +/- 1.3 and LoRA reaches 71.4% +/- 2.4 (3 seeds), statistically indistinguishable at this sample size while requiring no weight merging. Cross-domain transfer is significant on MATH-500 (+4.8 pp, p = 0.00002, 8 seeds) and GSM8K (+2.8 pp, p = 0.0003, 10 seeds); a text-to-SQL benchmark (Spider) shows no transfer, consistent with the trajectory-steering mechanism. A prefix-tuning control on a pure Transformer (Qwen2.5-3B) degrades performance by -13.9 pp under all nine configurations tested. On Qwen3.5, a per-step state-offset variant reaches +27.1 pp, above both S0 and LoRA but with per-step inference cost. Taken together, the results show that recurrent state initialization is a strong zero-inference-overhead PEFT surface for hybrid language models when verified supervision is scarce. The tuned state is a ~48 MB file; task switching requires no weight merging or model reload. Code and library: https://github.com/jackyoung27/s0-tuning.

S0 Tuning: Adaptação de Modelos Híbridos de Recorrência-Atenção com Sobrecarga Zero

S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

Resumo

Support