ChatPaper.aiChatPaper

Vetores de Raciocínio: Transferindo Capacidades de Cadeia de Pensamento por meio de Aritmética de Tarefas

Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic

September 1, 2025
Autores: Mohammad Zbeeb, Hasan Abed Al Kader Hammoud, Bernard Ghanem
cs.AI

Resumo

Modelos de linguagem de grande escala frequentemente exigem otimizações custosas, como aprendizado por reforço, para dominar tarefas complexas de raciocínio. Este trabalho demonstra que a capacidade de raciocínio, uma vez aprendida, pode ser extraída e transferida entre modelos como um vetor de tarefa compacto. Utilizamos dois modelos Qwen2.5 publicamente disponíveis e inicializados de forma idêntica, um ajustado com fine-tuning supervisionado (SFT) e outro com otimização de política relativa em grupo (GRPO) no mesmo conjunto de dados. A partir deles, extraímos um vetor de raciocínio: v_{raciocínio} = theta_{GRPO} - theta_{SFT}. Nossa hipótese é que esse vetor captura a capacidade de raciocínio instilada pelo aprendizado por reforço, ao mesmo tempo que remove o conhecimento compartilhado do processo de SFT. Quando adicionado a modelos compatíveis ajustados por instrução por meio de aritmética simples, esse vetor melhora consistentemente o desempenho em diversos benchmarks de raciocínio: GSM8K (+4,9%), HumanEval (+4,3%), SciQ (+1,7%) e BigBenchHard (+12,3% para o modelo de 1,5B). As melhorias de desempenho persistem sob condições adversas. Por outro lado, subtrair o vetor causa uma degradação significativa no desempenho (-11,8% no GSM8K), demonstrando a forte contribuição do vetor para as habilidades de raciocínio do modelo. Este trabalho mostra como capacidades de raciocínio, tipicamente desenvolvidas por meio de treinamentos caros, podem ser extraídas de modelos de código aberto existentes e reutilizadas por meio de aritmética tensorial simples, oferecendo uma maneira prática de aprimorar modelos ao reciclar investimentos computacionais anteriores.
English
Large language models often require costly optimization, such as reinforcement learning, to master complex reasoning tasks. This work demonstrates that reasoning ability, once learned, can be extracted and transferred between models as a compact task vector. We source two publicly available, identically initialized Qwen2.5 models, one fine-tuned with supervised fine-tuning (SFT) and the other with group relative policy optimization (GRPO) on the same dataset. From these, we extract a reasoning vector: v_{reason} = theta_{GRPO} - theta_{SFT}. We hypothesize that this vector captures the reasoning capability instilled by reinforcement learning while factoring out shared knowledge from the SFT process. When added to compatible instruction-tuned models through simple arithmetic, this vector consistently improves performance across diverse reasoning benchmarks: GSM8K (+4.9%), HumanEval (+4.3%), SciQ (+1.7%), and BigBenchHard (+12.3% for the 1.5B model). The performance improvements persist under adversarial conditions. Conversely, subtracting the vector causes significant performance degradation (-11.8% on GSM8K), demonstrating the vector's strong contribution to the model's reasoning abilities. This work shows how reasoning capabilities, typically developed through expensive training, can be extracted from existing open-source models and reused through simple tensor arithmetic, offering a practical way to enhance models by recycling prior computational investments.
PDF551September 3, 2025