ChatPaper.aiChatPaper

KAT-Coder-V2 技術報告書

KAT-Coder-V2 Technical Report

March 29, 2026
著者: Fengxiang Li, Han Zhang, Haoyang Huang, Jinghui Wang, Jinhua Hao, Kun Yuan, Mengtong Li, Minglei Zhang, Pengcheng Xu, Wenhao Zhuang, Yizhen Shao, Zongxian Feng, Can Tang, Chao Wang, Chengxiao Tong, Fan Yang, Gang Xiong, Haixuan Gao, Han Gao, Hao Wang, Haochen Liu, Hongliang Sun, Jiabao Li, Jingwen Chang, Jun Du, Junyi Peng, Leizhen Cui, Meimei Jing, Mingqi Wu, Shangpeng Yan, Shaotong Qi, Suzhe Xu, Wenxuan Zhao, Xianda Sun, Xuan Xie, Yanbo Wang, Yao Xia, Yinghan Cui, Yingpeng Chen, Yong Wang, Yuze Shi, Zhiwei Shen, Ziyu Wang, Ming Sun, Lin Ye, Bin Chen
cs.AI

要旨

本論文では、KuaishouのKwaiKATチームによって開発されたエージェント型コーディングモデル「KAT-Coder-V2」を提案する。KAT-Coder-V2は「専門化後統合」パラダイムを採用し、エージェント型コーディングを5つの専門領域(SWE、Webコーディング、ターミナル、Web検索、汎用)に分解する。各専門モデルは独立して教師ありファインチューニングと強化学習を経た後、方策オン蒸留によって単一のモデルに統合される。また、数万の同時サンドボックスインスタンスを維持するモジュラー基盤「KwaiEnv」を開発し、タスク複雑性、意図整合性、足場一般化に沿って強化学習をスケーリングした。さらに、MoE強化学習の安定化のためにMCLAを、ツリー構造トラジェクトリにおける冗長計算を最大6.2倍高速化して排除するTree Trainingを提案する。KAT-Coder-V2は、SWE-bench Verifiedで79.6%(Claude Opusの80.8%に対し)、PinchBenchで88.7(GLM-5とMiniMax M2.7を上回り)、3つのフロントエンド美的シナリオ全てで首位を獲得し、Terminal-Bench Hard(46.8)およびtau^2-Bench(93.9)で強力なジェネラリストスコアを維持する。本モデルはhttps://streamlake.com/product/kat-coder で公開されている。
English
We present KAT-Coder-V2, an agentic coding model developed by the KwaiKAT team at Kuaishou. KAT-Coder-V2 adopts a "Specialize-then-Unify" paradigm that decomposes agentic coding into five expert domains - SWE, WebCoding, Terminal, WebSearch, and General - each undergoing independent supervised fine-tuning and reinforcement learning, before being consolidated into a single model via on-policy distillation. We develop KwaiEnv, a modular infrastructure sustaining tens of thousands of concurrent sandbox instances, and scale RL training along task complexity, intent alignment, and scaffold generalization. We further propose MCLA for stabilizing MoE RL training and Tree Training for eliminating redundant computation over tree-structured trajectories with up to 6.2x speedup. KAT-Coder-V2 achieves 79.6% on SWE-bench Verified (vs. Claude Opus 4.6 at 80.8%), 88.7 on PinchBench (surpassing GLM-5 and MiniMax M2.7), ranks first across all three frontend aesthetics scenarios, and maintains strong generalist scores on Terminal-Bench Hard (46.8) and tau^2-Bench (93.9). Our model is publicly available at https://streamlake.com/product/kat-coder.
PDF01April 1, 2026