ChatPaper.aiChatPaper

Redeneervectoren: Overdracht van Chain-of-Thought-vaardigheden via taakarithmetiek

Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic

September 1, 2025
Auteurs: Mohammad Zbeeb, Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI

Samenvatting

Grote taalmodellen vereisen vaak kostbare optimalisatie, zoals reinforcement learning, om complexe redeneertaken onder de knie te krijgen. Dit werk toont aan dat redeneervermogen, eenmaal aangeleerd, kan worden geëxtraheerd en overgedragen tussen modellen als een compacte taakvector. We gebruiken twee publiek beschikbare, identiek geïnitialiseerde Qwen2.5-modellen, waarvan er één is verfijnd met supervised fine-tuning (SFT) en de andere met group relative policy optimization (GRPO) op dezelfde dataset. Hieruit extraheren we een redeneervector: v_{reason} = theta_{GRPO} - theta_{SFT}. We veronderstellen dat deze vector het redeneervermogen vastlegt dat is aangebracht door reinforcement learning, terwijl gedeelde kennis uit het SFT-proces wordt uitgefilterd. Wanneer deze vector via eenvoudige rekenkunde wordt toegevoegd aan compatibele instructie-afgestemde modellen, verbetert deze consistent de prestaties op diverse redeneerbenchmarks: GSM8K (+4,9%), HumanEval (+4,3%), SciQ (+1,7%) en BigBenchHard (+12,3% voor het 1,5B-model). De prestatieverbeteringen blijven bestaan onder adversariële omstandigheden. Omgekeerd veroorzaakt het aftrekken van de vector een significante prestatievermindering (-11,8% op GSM8K), wat de sterke bijdrage van de vector aan het redeneervermogen van het model aantoont. Dit werk laat zien hoe redeneervermogen, dat doorgaans wordt ontwikkeld via dure training, kan worden geëxtraheerd uit bestaande open-source modellen en hergebruikt kan worden via eenvoudige tensorrekenkunde, wat een praktische manier biedt om modellen te verbeteren door eerder gedane computationele investeringen te recyclen.
English
Large language models often require costly optimization, such as reinforcement learning, to master complex reasoning tasks. This work demonstrates that reasoning ability, once learned, can be extracted and transferred between models as a compact task vector. We source two publicly available, identically initialized Qwen2.5 models, one fine-tuned with supervised fine-tuning (SFT) and the other with group relative policy optimization (GRPO) on the same dataset. From these, we extract a reasoning vector: v_{reason} = theta_{GRPO} - theta_{SFT}. We hypothesize that this vector captures the reasoning capability instilled by reinforcement learning while factoring out shared knowledge from the SFT process. When added to compatible instruction-tuned models through simple arithmetic, this vector consistently improves performance across diverse reasoning benchmarks: GSM8K (+4.9%), HumanEval (+4.3%), SciQ (+1.7%), and BigBenchHard (+12.3% for the 1.5B model). The performance improvements persist under adversarial conditions. Conversely, subtracting the vector causes significant performance degradation (-11.8% on GSM8K), demonstrating the vector's strong contribution to the model's reasoning abilities. This work shows how reasoning capabilities, typically developed through expensive training, can be extracted from existing open-source models and reused through simple tensor arithmetic, offering a practical way to enhance models by recycling prior computational investments.
PDF571September 3, 2025