Vecteurs de raisonnement : Transfert des capacités de chaîne de pensée via l'arithmétique des tâches
Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic
September 1, 2025
papers.authors: Mohammad Zbeeb, Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI
papers.abstract
Les grands modèles de langage nécessitent souvent une optimisation coûteuse, telle que l'apprentissage par renforcement, pour maîtriser des tâches de raisonnement complexes. Ce travail démontre que la capacité de raisonnement, une fois acquise, peut être extraite et transférée entre modèles sous la forme d'un vecteur de tâche compact. Nous utilisons deux modèles Qwen2.5, initialisés de manière identique et disponibles publiquement, l'un affiné par apprentissage supervisé (SFT) et l'autre par optimisation de politique relative par groupe (GRPO) sur le même jeu de données. À partir de ceux-ci, nous extrayons un vecteur de raisonnement : v_{raison} = theta_{GRPO} - theta_{SFT}. Nous émettons l'hypothèse que ce vecteur capture la capacité de raisonnement instaurée par l'apprentissage par renforcement tout en éliminant les connaissances partagées issues du processus SFT. Lorsqu'il est ajouté à des modèles compatibles ajustés par instruction via une simple opération arithmétique, ce vecteur améliore systématiquement les performances sur divers benchmarks de raisonnement : GSM8K (+4,9 %), HumanEval (+4,3 %), SciQ (+1,7 %) et BigBenchHard (+12,3 % pour le modèle de 1,5 milliard). Les améliorations de performances persistent dans des conditions adverses. Inversement, soustraire le vecteur entraîne une dégradation significative des performances (-11,8 % sur GSM8K), démontrant la contribution majeure du vecteur aux capacités de raisonnement du modèle. Ce travail montre comment les capacités de raisonnement, généralement développées par un entraînement coûteux, peuvent être extraites de modèles open-source existants et réutilisées via de simples opérations tensorielles, offrant ainsi une méthode pratique pour améliorer les modèles en recyclant les investissements computationnels antérieurs.
English
Large language models often require costly optimization, such as
reinforcement learning, to master complex reasoning tasks. This work
demonstrates that reasoning ability, once learned, can be extracted and
transferred between models as a compact task vector. We source two publicly
available, identically initialized Qwen2.5 models, one fine-tuned with
supervised fine-tuning (SFT) and the other with group relative policy
optimization (GRPO) on the same dataset. From these, we extract a reasoning
vector: v_{reason} = theta_{GRPO} - theta_{SFT}. We
hypothesize that this vector captures the reasoning capability instilled by
reinforcement learning while factoring out shared knowledge from the SFT
process. When added to compatible instruction-tuned models through simple
arithmetic, this vector consistently improves performance across diverse
reasoning benchmarks: GSM8K (+4.9%), HumanEval (+4.3%), SciQ (+1.7%), and
BigBenchHard (+12.3% for the 1.5B model). The performance improvements persist
under adversarial conditions. Conversely, subtracting the vector causes
significant performance degradation (-11.8% on GSM8K), demonstrating the
vector's strong contribution to the model's reasoning abilities. This work
shows how reasoning capabilities, typically developed through expensive
training, can be extracted from existing open-source models and reused through
simple tensor arithmetic, offering a practical way to enhance models by
recycling prior computational investments.