A Hipótese da Chave Mestra: Desbloqueando a Transferência de Capacidade entre Modelos via Alinhamento de Subespaços Lineares

Resumo

Investigamos se as capacidades adquiridas após o treinamento podem ser transferidas entre modelos sem necessidade de retreinamento, com foco na transferência entre diferentes escalas de modelos. Propomos a Hipótese da Chave-Mestra, que afirma que as capacidades do modelo correspondem a direções em um subespaço latente de baixa dimensão que induzem comportamentos específicos e são transferíveis entre modelos por meio de alinhamento linear. Com base nessa hipótese, introduzimos o UNLOCK, uma estrutura livre de treinamento e de rótulos que extrai uma direção de capacidade contrastando as ativações entre variantes da Fonte com e sem a capacidade, alinha-a com um modelo de Destino por meio de uma transformação linear de baixa classificação e aplica-a no momento da inferência para eliciar o comportamento. Experimentos com comportamentos de raciocínio, incluindo Cadeia de Pensamento (CoT) e raciocínio matemático, demonstram melhorias substanciais entre escalas de modelos sem treinamento. Por exemplo, transferir o raciocínio CoT do Qwen1.5-14B para o Qwen1.5-7B resulta em um ganho de precisão de 12,1% no conjunto MATH, e transferir uma direção de raciocínio matemático do Qwen3-4B-Base para o Qwen3-14B-Base melhora a precisão no AGIEval Math de 61,1% para 71,3%, superando os 67,8% alcançados pelo modelo de 14B pós-treinado. Nossa análise mostra que o sucesso da transferência depende das capacidades aprendidas durante o pré-treinamento e que nossa intervenção amplifica as capacidades latentes ao aguçar a distribuição de saída em direção a trajetórias de raciocínio bem-sucedidas.

English

We investigate whether post-trained capabilities can be transferred across models without retraining, with a focus on transfer across different model scales. We propose the Master Key Hypothesis, which states that model capabilities correspond to directions in a low-dimensional latent subspace that induce specific behaviors and are transferable across models through linear alignment. Based on this hypothesis, we introduce UNLOCK, a training-free and label-free framework that extracts a capability direction by contrasting activations between capability-present and capability-absent Source variants, aligns it with a Target model through a low-rank linear transformation, and applies it at inference time to elicit the behavior. Experiments on reasoning behaviors, including Chain-of-Thought (CoT) and mathematical reasoning, demonstrate substantial improvements across model scales without training. For example, transferring CoT reasoning from Qwen1.5-14B to Qwen1.5-7B yields an accuracy gain of 12.1% on MATH, and transferring a mathematical reasoning direction from Qwen3-4B-Base to Qwen3-14B-Base improves AGIEval Math accuracy from 61.1% to 71.3%, surpassing the 67.8% achieved by the 14B post-trained model. Our analysis shows that the success of transfer depends on the capabilities learned during pre-training, and that our intervention amplifies latent capabilities by sharpening the output distribution toward successful reasoning trajectories.

A Hipótese da Chave Mestra: Desbloqueando a Transferência de Capacidade entre Modelos via Alinhamento de Subespaços Lineares

The Master Key Hypothesis: Unlocking Cross-Model Capability Transfer via Linear Subspace Alignment

Resumo

Support