Die Master-Key-Hypothese: Entschlüsselung von Modellübergreifenden Fähigkeitstransfers durch lineare Unterraumausrichtung

Zusammenfassung

Wir untersuchen, ob nachtrainierte Fähigkeiten zwischen Modellen ohne erneutes Training übertragen werden können, mit einem Schwerpunkt auf der Übertragung über verschiedene Modellgrößen hinweg. Wir stellen die Master-Key-Hypothese auf, welche besagt, dass Modellfähigkeiten Richtungen in einem niedrigdimensionalen latenten Unterraum entsprechen, die spezifische Verhaltensweisen induzieren und durch lineare Anpassung zwischen Modellen übertragbar sind. Basierend auf dieser Hypothese stellen wir UNLOCK vor, ein trainings- und labelfreies Framework, das eine Fähigkeitsrichtung durch Kontrastierung der Aktivierungen zwischen fähigkeitsbesitzenden und fähigkeitslosen Quellmodell-Varianten extrahiert, sie über eine niedrigrangige lineare Transformation mit einem Zielmodell in Einklang bringt und sie zur Inferenzzeit anwendet, um das Verhalten auszulösen. Experimente zu Reasoning-Verhalten, einschließlich Chain-of-Thought (CoT) und mathematischem Reasoning, zeigen erhebliche Verbesserungen über Modellgrößen hinweg ohne Training. Beispielsweise führt die Übertragung von CoT-Reasoning von Qwen1.5-14B auf Qwen1.5-7B zu einem Genauigkeitsgewinn von 12,1 % auf MATH, und die Übertragung einer mathematischen Reasoning-Richtung von Qwen3-4B-Base auf Qwen3-14B-Base verbessert die AGIEval Math-Genauigkeit von 61,1 % auf 71,3 % und übertrifft damit die 67,8 %, die das nachtrainierte 14B-Modell erreicht. Unsere Analyse zeigt, dass der Erfolg der Übertragung von den während des Pre-Trainings erlernten Fähigkeiten abhängt und dass unsere Intervention latente Fähigkeiten verstärkt, indem sie die Ausgabeverteilung hin zu erfolgreichen Reasoning-Pfaden verschärft.

English

We investigate whether post-trained capabilities can be transferred across models without retraining, with a focus on transfer across different model scales. We propose the Master Key Hypothesis, which states that model capabilities correspond to directions in a low-dimensional latent subspace that induce specific behaviors and are transferable across models through linear alignment. Based on this hypothesis, we introduce UNLOCK, a training-free and label-free framework that extracts a capability direction by contrasting activations between capability-present and capability-absent Source variants, aligns it with a Target model through a low-rank linear transformation, and applies it at inference time to elicit the behavior. Experiments on reasoning behaviors, including Chain-of-Thought (CoT) and mathematical reasoning, demonstrate substantial improvements across model scales without training. For example, transferring CoT reasoning from Qwen1.5-14B to Qwen1.5-7B yields an accuracy gain of 12.1% on MATH, and transferring a mathematical reasoning direction from Qwen3-4B-Base to Qwen3-14B-Base improves AGIEval Math accuracy from 61.1% to 71.3%, surpassing the 67.8% achieved by the 14B post-trained model. Our analysis shows that the success of transfer depends on the capabilities learned during pre-training, and that our intervention amplifies latent capabilities by sharpening the output distribution toward successful reasoning trajectories.

Die Master-Key-Hypothese: Entschlüsselung von Modellübergreifenden Fähigkeitstransfers durch lineare Unterraumausrichtung

The Master Key Hypothesis: Unlocking Cross-Model Capability Transfer via Linear Subspace Alignment

Zusammenfassung

Support