ChatPaper.aiChatPaper

強化学習エージェントモデルにおける行動知識マージ

Behavior Knowledge Merge in Reinforced Agentic Models

January 20, 2026
著者: Xiangchi Yuan, Dachuan Shi, Chunhui Zhang, Zheyuan Liu, Shenglong Yao, Soroush Vosoughi, Wenke Lee
cs.AI

要旨

強化学習(RL)は、特に専門的な推論行動を必要とするエージェンシックモデルのポストトレーニングにおいて中心的な役割を果たす。この設定において、モデルマージングは、異なるタスクから複数のRLで訓練されたエージェントを単一のジェネラリストモデルに統合する実用的なメカニズムを提供する。しかし、既存のマージング手法は教師ありファインチューニング(SFT)向けに設計されており、RLで訓練されたエージェンシックモデルにおけるタスク固有の能力を維持するには最適ではない。その根本原因は、RLとSFTの間のタスクベクトルのミスマッチにある。方策オン型RLは、高度にスパースで不均質なタスクベクトルを生成するのに対し、SFTスタイルのマージングは、暗黙的に密でグローバルに比較可能なタスクベクトルを仮定している。このミスマッチの下で標準的なグローバル平均化を適用すると、重要なタスク固有の行動を符号化するRLの非重複タスクベクトルが縮小され、パラメータ更新が希釈されてしまう。この問題を解決するため、我々はRLで訓練されたエージェンシックモデル向けに明示的に設計された分布認識型マージングフレームワークであるReinforced Agent Merging(RAM)を提案する。RAMは、共有パラメータ更新とタスク固有のユニークなパラメータ更新を分離し、共有成分を平均化するとともに、ユニークな成分を選択的に保存し再スケーリングすることで、パラメータ更新の希釈を相殺する。複数のエージェント領域とモデルアーキテクチャにわたる実験により、RAMがマージングのベースラインを凌駕するだけでなく、エージェント間の相乗効果を解放し、各領域の専門エージェントを上回る性能を達成できることが実証された。
English
Reinforcement learning (RL) is central to post-training, particularly for agentic models that require specialized reasoning behaviors. In this setting, model merging offers a practical mechanism for integrating multiple RL-trained agents from different tasks into a single generalist model. However, existing merging methods are designed for supervised fine-tuning (SFT), and they are suboptimal to preserve task-specific capabilities on RL-trained agentic models. The root is a task-vector mismatch between RL and SFT: on-policy RL induces task vectors that are highly sparse and heterogeneous, whereas SFT-style merging implicitly assumes dense and globally comparable task vectors. When standard global averaging is applied under this mismatch, RL's non-overlapping task vectors that encode critical task-specific behaviors are reduced and parameter updates are diluted. To address this issue, we propose Reinforced Agent Merging (RAM), a distribution-aware merging framework explicitly designed for RL-trained agentic models. RAM disentangles shared and task-specific unique parameter updates, averaging shared components while selectively preserving and rescaling unique ones to counteract parameter update dilution. Experiments across multiple agent domains and model architectures demonstrate that RAM not only surpasses merging baselines, but also unlocks synergistic potential among agents to achieve performance superior to that of specialized agents in their domains.
PDF151January 23, 2026