L'hypothèse de la clé maîtresse : Déverrouiller le transfert de capacités inter-modèles via l'alignement de sous-espaces linéaires

Résumé

Nous étudions si les capacités acquises après entraînement peuvent être transférées d'un modèle à un autre sans réentraînement, en nous concentrant sur le transfert entre différentes échelles de modèles. Nous proposons l'hypothèse de la Clé Maîtresse, selon laquelle les capacités d'un modèle correspondent à des directions dans un sous-espace latent de faible dimension qui induisent des comportements spécifiques et sont transférables entre modèles via un alignement linéaire. Sur la base de cette hypothèse, nous présentons UNLOCK, un framework sans entraînement et sans étiquettes qui extrait une direction de capacité en contrastant les activations entre des variantes Source possédant la capacité et en étant dépourvues, l'aligne avec un modèle Cible via une transformation linéaire de faible rang, et l'applique au moment de l'inférence pour susciter le comportement. Les expériences sur des comportements de raisonnement, incluant le Raisonnement en Chaîne (Chain-of-Thought, CoT) et le raisonnement mathématique, démontrent des améliorations substantielles across différentes échelles de modèles sans entraînement. Par exemple, le transfert du raisonnement CoT de Qwen1.5-14B à Qwen1.5-7B produit un gain de précision de 12,1% sur MATH, et le transfert d'une direction de raisonnement mathématique de Qwen3-4B-Base à Qwen3-14B-Base améliore la précision sur AGIEval Math de 61,1% à 71,3%, dépassant les 67,8% obtenus par le modèle 14B post-entraîné. Notre analyse montre que le succès du transfert dépend des capacités apprises lors du pré-entraînement, et que notre intervention amplifie les capacités latentes en affinant la distribution de sortie vers des trajectoires de raisonnement réussies.

English

We investigate whether post-trained capabilities can be transferred across models without retraining, with a focus on transfer across different model scales. We propose the Master Key Hypothesis, which states that model capabilities correspond to directions in a low-dimensional latent subspace that induce specific behaviors and are transferable across models through linear alignment. Based on this hypothesis, we introduce UNLOCK, a training-free and label-free framework that extracts a capability direction by contrasting activations between capability-present and capability-absent Source variants, aligns it with a Target model through a low-rank linear transformation, and applies it at inference time to elicit the behavior. Experiments on reasoning behaviors, including Chain-of-Thought (CoT) and mathematical reasoning, demonstrate substantial improvements across model scales without training. For example, transferring CoT reasoning from Qwen1.5-14B to Qwen1.5-7B yields an accuracy gain of 12.1% on MATH, and transferring a mathematical reasoning direction from Qwen3-4B-Base to Qwen3-14B-Base improves AGIEval Math accuracy from 61.1% to 71.3%, surpassing the 67.8% achieved by the 14B post-trained model. Our analysis shows that the success of transfer depends on the capabilities learned during pre-training, and that our intervention amplifies latent capabilities by sharpening the output distribution toward successful reasoning trajectories.

L'hypothèse de la clé maîtresse : Déverrouiller le transfert de capacités inter-modèles via l'alignement de sous-espaces linéaires

The Master Key Hypothesis: Unlocking Cross-Model Capability Transfer via Linear Subspace Alignment

Résumé

Support