S0 Tuning: Adaptación de Modelos Híbridos de Atención-Recurrentes sin Sobrecarga

Resumen

Utilizando aproximadamente 48 soluciones de entrenamiento de HumanEval verificadas como ejecutables, el ajuste de una única matriz de estado inicial por capa recurrente, con sobrecarga de inferencia cero, supera a LoRA en +10.8 pp (p < 0.001) en HumanEval. El método, que denominamos ajuste S0, optimiza una matriz de estado por capa recurrente mientras congela todos los pesos del modelo. En Qwen3.5-4B (híbrido GatedDeltaNet), el ajuste S0 mejora la métrica *greedy pass@1* en +23.6 +/- 1.7 pp (10 semillas). En FalconH1-7B (híbrido Mamba-2), S0 alcanza un 71.8% +/- 1.3 y LoRA alcanza un 71.4% +/- 2.4 (3 semillas), resultados estadísticamente indistinguibles con este tamaño de muestra, sin requerir fusión de pesos. La transferencia cross-dominio es significativa en MATH-500 (+4.8 pp, p = 0.00002, 8 semillas) y GSM8K (+2.8 pp, p = 0.0003, 10 semillas); un benchmark de texto a SQL (Spider) no muestra transferencia, lo que es consistente con el mecanismo de direccionamiento de trayectorias. Un control de *prefix-tuning* en un Transformer puro (Qwen2.5-3B) degrada el rendimiento en -13.9 pp en las nueve configuraciones probadas. En Qwen3.5, una variante de compensación de estado por paso alcanza +27.1 pp, por encima de S0 y LoRA, pero con un coste de inferencia por paso. En conjunto, los resultados muestran que la inicialización del estado recurrente es una superficie de PEFT (Parameter-Efficient Fine-Tuning) sólida y sin sobrecarga de inferencia para modelos de lenguaje híbridos cuando la supervisión verificada es escasa. El estado ajustado es un archivo de ~48 MB; el cambio de tarea no requiere fusión de pesos ni recarga del modelo. Código y librería: https://github.com/jackyoung27/s0-tuning.

English

Using roughly 48 execution-verified HumanEval training solutions, tuning a single initial state matrix per recurrent layer, with zero inference overhead, outperforms LoRA by +10.8 pp (p < 0.001) on HumanEval. The method, which we call S0 tuning, optimizes one state matrix per recurrent layer while freezing all model weights. On Qwen3.5-4B (GatedDeltaNet hybrid), S0 tuning improves greedy pass@1 by +23.6 +/- 1.7 pp (10 seeds). On FalconH1-7B (Mamba-2 hybrid), S0 reaches 71.8% +/- 1.3 and LoRA reaches 71.4% +/- 2.4 (3 seeds), statistically indistinguishable at this sample size while requiring no weight merging. Cross-domain transfer is significant on MATH-500 (+4.8 pp, p = 0.00002, 8 seeds) and GSM8K (+2.8 pp, p = 0.0003, 10 seeds); a text-to-SQL benchmark (Spider) shows no transfer, consistent with the trajectory-steering mechanism. A prefix-tuning control on a pure Transformer (Qwen2.5-3B) degrades performance by -13.9 pp under all nine configurations tested. On Qwen3.5, a per-step state-offset variant reaches +27.1 pp, above both S0 and LoRA but with per-step inference cost. Taken together, the results show that recurrent state initialization is a strong zero-inference-overhead PEFT surface for hybrid language models when verified supervision is scarce. The tuned state is a ~48 MB file; task switching requires no weight merging or model reload. Code and library: https://github.com/jackyoung27/s0-tuning.

S0 Tuning: Adaptación de Modelos Híbridos de Atención-Recurrentes sin Sobrecarga

S0 Tuning: Zero-Overhead Adaptation of Hybrid Recurrent-Attention Models

Resumen

Support