Гипотеза главного ключа: раскрытие потенциала трансферного обучения между моделями через выравнивание линейных подпространств

Аннотация

Мы исследуем возможность передачи пост-обученных способностей между моделями без их переобучения, с акцентом на передачу между моделями разного масштаба. Мы выдвигаем Гипотезу Мастер-Ключа, которая утверждает, что способности модели соответствуют направлениям в низкоразмерном латентном подпространстве, которые индуцируют определенное поведение и являются передаваемыми между моделями посредством линейного выравнивания. Основываясь на этой гипотезе, мы представляем UNLOCK — бестренировочный и бесметочный фреймворк, который извлекает «направление способности» путем контрастирования активаций между вариантами Исходной модели, обладающей способностью и лишенной ее, выравнивает его с Целевой моделью с помощью низкорангового линейного преобразования и применяет его во время вывода для вызова целевого поведения. Эксперименты с рассужденческими поведениями, включая Цепь Мыслей (Chain-of-Thought, CoT) и математические рассуждения, демонстрируют существенное улучшение результатов across модельных масштабов без обучения. Например, передача способности к CoT-рассуждению от Qwen1.5-14B к Qwen1.5-7B дает прирост точности в 12.1% на датасете MATH, а передача «направления математических рассуждений» от Qwen3-4B-Base к Qwen3-14B-Base улучшает точность на AGIEval Math с 61.1% до 71.3%, превосходя результат 67.8%, достигнутый пост-обученной 14B моделью. Наш анализ показывает, что успех передачи зависит от способностей, усвоенных на этапе предварительного обучения, и что наша интервенция усиливает латентные способности, заостряя выходное распределение в сторону успешных траекторий рассуждения.

English

We investigate whether post-trained capabilities can be transferred across models without retraining, with a focus on transfer across different model scales. We propose the Master Key Hypothesis, which states that model capabilities correspond to directions in a low-dimensional latent subspace that induce specific behaviors and are transferable across models through linear alignment. Based on this hypothesis, we introduce UNLOCK, a training-free and label-free framework that extracts a capability direction by contrasting activations between capability-present and capability-absent Source variants, aligns it with a Target model through a low-rank linear transformation, and applies it at inference time to elicit the behavior. Experiments on reasoning behaviors, including Chain-of-Thought (CoT) and mathematical reasoning, demonstrate substantial improvements across model scales without training. For example, transferring CoT reasoning from Qwen1.5-14B to Qwen1.5-7B yields an accuracy gain of 12.1% on MATH, and transferring a mathematical reasoning direction from Qwen3-4B-Base to Qwen3-14B-Base improves AGIEval Math accuracy from 61.1% to 71.3%, surpassing the 67.8% achieved by the 14B post-trained model. Our analysis shows that the success of transfer depends on the capabilities learned during pre-training, and that our intervention amplifies latent capabilities by sharpening the output distribution toward successful reasoning trajectories.

Гипотеза главного ключа: раскрытие потенциала трансферного обучения между моделями через выравнивание линейных подпространств

The Master Key Hypothesis: Unlocking Cross-Model Capability Transfer via Linear Subspace Alignment

Аннотация

Support