ChatPaper.aiChatPaper

Vettori di Ragionamento: Trasferimento delle Capacità di Catena di Pensiero attraverso l'Aritmetica dei Compiti

Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic

September 1, 2025
Autori: Mohammad Zbeeb, Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI

Abstract

I grandi modelli linguistici spesso richiedono ottimizzazioni costose, come l'apprendimento per rinforzo, per padroneggiare compiti di ragionamento complessi. Questo lavoro dimostra che la capacità di ragionamento, una volta appresa, può essere estratta e trasferita tra modelli come un vettore di compatto. Utilizziamo due modelli Qwen2.5 pubblicamente disponibili, inizializzati in modo identico, uno ottimizzato con fine-tuning supervisionato (SFT) e l'altro con ottimizzazione della politica relativa di gruppo (GRPO) sullo stesso dataset. Da questi, estraiamo un vettore di ragionamento: v_{reason} = theta_{GRPO} - theta_{SFT}. Ipotesizziamo che questo vettore catturi la capacità di ragionamento instillata dall'apprendimento per rinforzo, eliminando la conoscenza condivisa dal processo SFT. Quando aggiunto a modelli compatibili ottimizzati per istruzioni attraverso semplici operazioni aritmetiche, questo vettore migliora costantemente le prestazioni su diversi benchmark di ragionamento: GSM8K (+4,9%), HumanEval (+4,3%), SciQ (+1,7%) e BigBenchHard (+12,3% per il modello da 1,5B). I miglioramenti delle prestazioni persistono in condizioni avverse. Al contrario, sottrarre il vettore causa un significativo degrado delle prestazioni (-11,8% su GSM8K), dimostrando il forte contributo del vettore alle capacità di ragionamento del modello. Questo lavoro mostra come le capacità di ragionamento, tipicamente sviluppate attraverso addestramenti costosi, possano essere estratte da modelli open-source esistenti e riutilizzate attraverso semplici operazioni tensoriali, offrendo un modo pratico per migliorare i modelli riciclando precedenti investimenti computazionali.
English
Large language models often require costly optimization, such as reinforcement learning, to master complex reasoning tasks. This work demonstrates that reasoning ability, once learned, can be extracted and transferred between models as a compact task vector. We source two publicly available, identically initialized Qwen2.5 models, one fine-tuned with supervised fine-tuning (SFT) and the other with group relative policy optimization (GRPO) on the same dataset. From these, we extract a reasoning vector: v_{reason} = theta_{GRPO} - theta_{SFT}. We hypothesize that this vector captures the reasoning capability instilled by reinforcement learning while factoring out shared knowledge from the SFT process. When added to compatible instruction-tuned models through simple arithmetic, this vector consistently improves performance across diverse reasoning benchmarks: GSM8K (+4.9%), HumanEval (+4.3%), SciQ (+1.7%), and BigBenchHard (+12.3% for the 1.5B model). The performance improvements persist under adversarial conditions. Conversely, subtracting the vector causes significant performance degradation (-11.8% on GSM8K), demonstrating the vector's strong contribution to the model's reasoning abilities. This work shows how reasoning capabilities, typically developed through expensive training, can be extracted from existing open-source models and reused through simple tensor arithmetic, offering a practical way to enhance models by recycling prior computational investments.
PDF571September 3, 2025