Vecteurs de raisonnement : Transfert des capacités de chaîne de pensée via l'arithmétique des tâches

papers.abstract

Les grands modèles de langage nécessitent souvent une optimisation coûteuse, telle que l'apprentissage par renforcement, pour maîtriser des tâches de raisonnement complexes. Ce travail démontre que la capacité de raisonnement, une fois acquise, peut être extraite et transférée entre modèles sous la forme d'un vecteur de tâche compact. Nous utilisons deux modèles Qwen2.5, initialisés de manière identique et disponibles publiquement, l'un affiné par apprentissage supervisé (SFT) et l'autre par optimisation de politique relative par groupe (GRPO) sur le même jeu de données. À partir de ceux-ci, nous extrayons un vecteur de raisonnement : v_{raison} = theta_{GRPO} - theta_{SFT}. Nous émettons l'hypothèse que ce vecteur capture la capacité de raisonnement instaurée par l'apprentissage par renforcement tout en éliminant les connaissances partagées issues du processus SFT. Lorsqu'il est ajouté à des modèles compatibles ajustés par instruction via une simple opération arithmétique, ce vecteur améliore systématiquement les performances sur divers benchmarks de raisonnement : GSM8K (+4,9 %), HumanEval (+4,3 %), SciQ (+1,7 %) et BigBenchHard (+12,3 % pour le modèle de 1,5 milliard). Les améliorations de performances persistent dans des conditions adverses. Inversement, soustraire le vecteur entraîne une dégradation significative des performances (-11,8 % sur GSM8K), démontrant la contribution majeure du vecteur aux capacités de raisonnement du modèle. Ce travail montre comment les capacités de raisonnement, généralement développées par un entraînement coûteux, peuvent être extraites de modèles open-source existants et réutilisées via de simples opérations tensorielles, offrant ainsi une méthode pratique pour améliorer les modèles en recyclant les investissements computationnels antérieurs.

English

Large language models often require costly optimization, such as reinforcement learning, to master complex reasoning tasks. This work demonstrates that reasoning ability, once learned, can be extracted and transferred between models as a compact task vector. We source two publicly available, identically initialized Qwen2.5 models, one fine-tuned with supervised fine-tuning (SFT) and the other with group relative policy optimization (GRPO) on the same dataset. From these, we extract a reasoning vector: v_{reason} = theta_{GRPO} - theta_{SFT}. We hypothesize that this vector captures the reasoning capability instilled by reinforcement learning while factoring out shared knowledge from the SFT process. When added to compatible instruction-tuned models through simple arithmetic, this vector consistently improves performance across diverse reasoning benchmarks: GSM8K (+4.9%), HumanEval (+4.3%), SciQ (+1.7%), and BigBenchHard (+12.3% for the 1.5B model). The performance improvements persist under adversarial conditions. Conversely, subtracting the vector causes significant performance degradation (-11.8% on GSM8K), demonstrating the vector's strong contribution to the model's reasoning abilities. This work shows how reasoning capabilities, typically developed through expensive training, can be extracted from existing open-source models and reused through simple tensor arithmetic, offering a practical way to enhance models by recycling prior computational investments.

Vecteurs de raisonnement : Transfert des capacités de chaîne de pensée via l'arithmétique des tâches

Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic

papers.abstract

Support