La Hipótesis de la Llave Maestra: Desbloqueando la Transferencia de Capacidades entre Modelos mediante la Alineación de Subespacios Lineales

Resumen

Investigamos si las capacidades adquiridas mediante post-entrenamiento pueden transferirse entre modelos sin necesidad de reentrenamiento, centrándonos en la transferencia entre diferentes escalas de modelos. Proponemos la Hipótesis de la Llave Maestra, que postula que las capacidades del modelo corresponden a direcciones en un subespacio latente de baja dimensionalidad que inducen comportamientos específicos y son transferibles entre modelos mediante alineación lineal. Basándonos en esta hipótesis, presentamos UNLOCK, un marco libre de entrenamiento y de etiquetas que extrae una dirección de capacidad contrastando las activaciones entre variantes Fuente que poseen la capacidad y variantes que carecen de ella, la alinea con un modelo Objetivo mediante una transformación lineal de bajo rango, y la aplica durante la inferencia para elicitar el comportamiento. Los experimentos sobre comportamientos de razonamiento, incluyendo Cadena de Pensamiento (CoT) y razonamiento matemático, demuestran mejoras sustanciales entre escalas de modelos sin entrenamiento. Por ejemplo, transferir el razonamiento CoT de Qwen1.5-14B a Qwen1.5-7B produce una ganancia de precisión del 12.1% en MATH, y transferir una dirección de razonamiento matemático de Qwen3-4B-Base a Qwen3-14B-Base mejora la precisión en AGIEval Math del 61.1% al 71.3%, superando el 67.8% logrado por el modelo de 14B post-entrenado. Nuestro análisis muestra que el éxito de la transferencia depende de las capacidades aprendidas durante el pre-entrenamiento, y que nuestra intervención amplifica las capacidades latentes agudizando la distribución de salida hacia trayectorias de razonamiento exitosas.

English

We investigate whether post-trained capabilities can be transferred across models without retraining, with a focus on transfer across different model scales. We propose the Master Key Hypothesis, which states that model capabilities correspond to directions in a low-dimensional latent subspace that induce specific behaviors and are transferable across models through linear alignment. Based on this hypothesis, we introduce UNLOCK, a training-free and label-free framework that extracts a capability direction by contrasting activations between capability-present and capability-absent Source variants, aligns it with a Target model through a low-rank linear transformation, and applies it at inference time to elicit the behavior. Experiments on reasoning behaviors, including Chain-of-Thought (CoT) and mathematical reasoning, demonstrate substantial improvements across model scales without training. For example, transferring CoT reasoning from Qwen1.5-14B to Qwen1.5-7B yields an accuracy gain of 12.1% on MATH, and transferring a mathematical reasoning direction from Qwen3-4B-Base to Qwen3-14B-Base improves AGIEval Math accuracy from 61.1% to 71.3%, surpassing the 67.8% achieved by the 14B post-trained model. Our analysis shows that the success of transfer depends on the capabilities learned during pre-training, and that our intervention amplifies latent capabilities by sharpening the output distribution toward successful reasoning trajectories.

La Hipótesis de la Llave Maestra: Desbloqueando la Transferencia de Capacidades entre Modelos mediante la Alineación de Subespacios Lineales

The Master Key Hypothesis: Unlocking Cross-Model Capability Transfer via Linear Subspace Alignment

Resumen

Support