De Hypothese van de Meestersleutel: Het Ontgrendelen van Kruismodel Capaciteitsoverdracht via Lineaire Subruimte-uitlijning

Samenvatting

Wij onderzoeken of getrainde capaciteiten tussen modellen kunnen worden overgedragen zonder hertraining, met een focus op overdracht tussen verschillende modelschalen. Wij stellen de Master Key-hypothese voor, die stelt dat modelcapaciteiten corresponderen met richtingen in een laagdimensionale latente deelruimte die specifiek gedrag induceren en overdraagbaar zijn tussen modellen via lineaire alignering. Gebaseerd op deze hypothese introduceren wij UNLOCK, een trainingsvrij en labelvrij framework dat een capaciteitsrichting extraheert door activeringen te contrasteren tussen bronvarianten met en zonder de capaciteit, deze aligneert met een doelmodel via een lineaire laag-rangtransformatie, en deze tijdens inferentie toepast om het gedrag op te wekken. Experimenten met redeneergedrag, waaronder Chain-of-Thought (CoT) en wiskundig redeneren, tonen substantiële verbeteringen tussen modelschalen zonder training. Zo levert overdracht van CoT-redenering van Qwen1.5-14B naar Qwen1.5-7B een nauwkeurigheidswinst op van 12,1% op MATH, en verbetert overdracht van een wiskundige redeneerrichting van Qwen3-4B-Base naar Qwen3-14B-Base de AGIEval Math-nauwkeurigheid van 61,1% naar 71,3%, wat de 67,8% van het getrainde 14B-model overtreft. Onze analyse toont aan dat het succes van overdracht afhangt van de tijdens de voortraining verworven capaciteiten, en dat onze interventie latente capaciteiten versterkt door de uitvoerverdeling te verscherpen naar succesvolle redeneertrajecten.

English

We investigate whether post-trained capabilities can be transferred across models without retraining, with a focus on transfer across different model scales. We propose the Master Key Hypothesis, which states that model capabilities correspond to directions in a low-dimensional latent subspace that induce specific behaviors and are transferable across models through linear alignment. Based on this hypothesis, we introduce UNLOCK, a training-free and label-free framework that extracts a capability direction by contrasting activations between capability-present and capability-absent Source variants, aligns it with a Target model through a low-rank linear transformation, and applies it at inference time to elicit the behavior. Experiments on reasoning behaviors, including Chain-of-Thought (CoT) and mathematical reasoning, demonstrate substantial improvements across model scales without training. For example, transferring CoT reasoning from Qwen1.5-14B to Qwen1.5-7B yields an accuracy gain of 12.1% on MATH, and transferring a mathematical reasoning direction from Qwen3-4B-Base to Qwen3-14B-Base improves AGIEval Math accuracy from 61.1% to 71.3%, surpassing the 67.8% achieved by the 14B post-trained model. Our analysis shows that the success of transfer depends on the capabilities learned during pre-training, and that our intervention amplifies latent capabilities by sharpening the output distribution toward successful reasoning trajectories.

De Hypothese van de Meestersleutel: Het Ontgrendelen van Kruismodel Capaciteitsoverdracht via Lineaire Subruimte-uitlijning

The Master Key Hypothesis: Unlocking Cross-Model Capability Transfer via Linear Subspace Alignment

Samenvatting

Support