L'Ipotesi della Chiave Maestra: Sbloccare il Trasferimento di Capacità Intermodelli tramite Allineamento di Sottospazi Lineari

Abstract

Indaghiamo se le capacità acquisite post-addestramento possano essere trasferite tra modelli senza riaddestramento, con un focus sul trasferimento tra diverse scale di modelli. Proponiamo l'Ipotesi della Chiave Master, la quale afferma che le capacità di un modello corrispondono a direzioni in un sottospazio latente a bassa dimensionalità che inducono comportamenti specifici e sono trasferibili tra modelli attraverso un allineamento lineare. Sulla base di questa ipotesi, introduciamo UNLOCK, un framework senza addestramento e senza etichette che estrae una direzione di capacità confrontando le attivazioni tra varianti Sorgente che possiedono la capacità e varianti che ne sono prive, la allinea con un modello Target attraverso una trasformazione lineare di basso rango e la applica al momento dell'inferenza per elicitare il comportamento. Esperimenti su comportamenti di ragionamento, inclusi il Ragionamento a Catena (Chain-of-Thought, CoT) e il ragionamento matematico, dimostrano miglioramenti sostanziali attraverso diverse scale di modelli senza addestramento. Ad esempio, trasferire il ragionamento CoT da Qwen1.5-14B a Qwen1.5-7B produce un guadagno di accuratezza del 12.1% su MATH, e trasferire una direzione di ragionamento matematico da Qwen3-4B-Base a Qwen3-14B-Base migliora l'accuratezza su AGIEval Math dal 61.1% al 71.3%, superando il 67.8% raggiunto dal modello da 14B post-addestrato. La nostra analisi mostra che il successo del trasferimento dipende dalle capacità apprese durante il pre-addestramento e che il nostro intervento amplifica le capacità latenti affinando la distribuzione di output verso traiettorie di ragionamento di successo.

English

We investigate whether post-trained capabilities can be transferred across models without retraining, with a focus on transfer across different model scales. We propose the Master Key Hypothesis, which states that model capabilities correspond to directions in a low-dimensional latent subspace that induce specific behaviors and are transferable across models through linear alignment. Based on this hypothesis, we introduce UNLOCK, a training-free and label-free framework that extracts a capability direction by contrasting activations between capability-present and capability-absent Source variants, aligns it with a Target model through a low-rank linear transformation, and applies it at inference time to elicit the behavior. Experiments on reasoning behaviors, including Chain-of-Thought (CoT) and mathematical reasoning, demonstrate substantial improvements across model scales without training. For example, transferring CoT reasoning from Qwen1.5-14B to Qwen1.5-7B yields an accuracy gain of 12.1% on MATH, and transferring a mathematical reasoning direction from Qwen3-4B-Base to Qwen3-14B-Base improves AGIEval Math accuracy from 61.1% to 71.3%, surpassing the 67.8% achieved by the 14B post-trained model. Our analysis shows that the success of transfer depends on the capabilities learned during pre-training, and that our intervention amplifies latent capabilities by sharpening the output distribution toward successful reasoning trajectories.

L'Ipotesi della Chiave Maestra: Sbloccare il Trasferimento di Capacità Intermodelli tramite Allineamento di Sottospazi Lineari

The Master Key Hypothesis: Unlocking Cross-Model Capability Transfer via Linear Subspace Alignment

Abstract

Support