Relatório Técnico do KAT-Coder-V2 **Resumo** Apresentamos o KAT-Coder-V2, um modelo de linguagem de código grande (LLM de código) avançado, desenvolvido através de um processo de treinamento em três etapas: (1) pré-treinamento em código e texto, (2) treinamento supervisionado de instruções (SFT) e (3) ajuste fino com otimização de política preferencial (PPO). O modelo demonstra capacidades significativas em compreensão de código, geração e tarefas relacionadas a instruções. Este relatório detalha a arquitetura do modelo, a metodologia de treinamento, os conjuntos de dados utilizados e os resultados de avaliação em benchmarks padrão. **1. Introdução** O campo da inteligência artificial tem testemunhado progressos rápidos na capacidade dos LLMs de entender e gerar código de programação. Esses modelos, conhecidos como LLMs de código, tornaram-se ferramentas cruciais para desenvolvedores, potencializando tarefas como autocompletar, tradução de código e depuração. O KAT-Coder-V2 foi desenvolvido para enfrentar a crescente demanda por assistentes de código robustos e eficientes. Ele se baseia no sucesso de modelos anteriores, incorporando melhorias na arquitetura e no pipeline de treinamento. **2. Arquitetura do Modelo** O KAT-Coder-V2 emprega uma arquitetura de Transformer decoder-only, semelhante a modelos como GPT. A arquitetura específica é detalhada abaixo: * **Tamanho do Modelo:** O modelo é disponibilizado em várias configurações de parâmetros, incluindo versões de 1.5B, 3B, 7B e 15B, para atender a diferentes requisitos computacionais e de desempenho. * **Dimensão de Embedding:** A dimensão do embedding é definida como 4.096 para o modelo de 15B. * **Número de Camadas:** O modelo de 15B consiste em 54 camadas de Transformer. * **Número de Cabeças de Atenção:** São utilizadas 32 cabeças de atenção para o modelo de 15B. * **Dimensionalidade da Cabeça de Atenção:** A dimensionalidade por cabeça de atenção é de 128. * **Contexto:** O modelo suporta um tamanho de contexto de 32.768 tokens, permitindo o processamento de longos trechos de código e documentação. * **Tokenizer:** Utiliza-se o tokenizer `gpt-4o-mini`, que demonstra eficiência na tokenização de código e linguagem natural. **3. Metodologia de Treinamento** O treinamento do KAT-Coder-V2 foi dividido em três fases principais: **3.1. Fase 1: Pré-treinamento** O modelo foi pré-treinado a partir do zero em um extenso corpus de dados públicos de alta qualidade, contendo código e texto em várias linguagens de programação (por exemplo, Python, Java, C++, JavaScript) e documentação associada. O objetivo desta fase foi incutir no modelo um conhecimento fundamental de sintaxe, semântica e padrões de programação. **3.2. Fase 2: Treinamento Supervisionado de Instruções (SFT)** Após o pré-treinamento, o modelo foi submetido a uma fase de SFT. Nesta etapa, o modelo foi treinado em um conjunto de dados cuidadosamente curado de pares de instrução-resposta. Esses dados incluíam exemplos de tarefas como "escreva uma função que...", "explique o seguinte código...", "traduza este código de Python para Java", entre outras. O SFT alinha o modelo para seguir instruções complexas e gerar saídas mais úteis e seguras. **3.3. Fase 3: Otimização de Política Preferencial (PPO)** A fase final envolveu o refinamento do modelo usando PPO, uma técnica de Aprendizado por Reforço a partir de Feedback Humano (RLHF). Um modelo de recompensa foi treinado para avaliar a qualidade das respostas do modelo com base em critérios como correção, utilidade, clareza e harmlessness. O modelo principal (actor) foi então otimizado para gerar respostas que maximizassem a pontuação fornecida pelo modelo de recompensa (critic). Isso resulta em um alinhamento mais preciso com as preferências humanas. **4. Conjuntos de Dados** Uma combinação de diversos conjuntos de dados públicos foi utilizada em todo o pipeline de treinamento. Estes incluem, mas não estão limitados a: * **Dados de Código:** Repositórios de código aberto de várias linguagens. * **Dados de Texto:** Documentação técnica, artigos e livros sobre programação. * **Dados de Instrução:** Conjuntos de dados de instrução de alta qualidade, como evol_instruct_code e openhermes, adaptados para tarefas de código. **5. Avaliação** O KAT-Coder-V2 foi avaliado em benchmarks padrão do setor para avaliar seu desempenho em tarefas de código. **5.1. HumanEval** O HumanEval avalia a capacidade de um modelo de gerar soluções corretas para problemas de programação baseados em docstrings. O KAT-Coder-V2 alcançou os seguintes resultados (pontuação pass@1): | Modelo | HumanEval (Python) | |-----------------|--------------------| | KAT-Coder-V2 1.5B | 34.1% | | KAT-Coder-V2 3B | 44.5% | | KAT-Coder-V2 7B | 61.6% | | KAT-Coder-V2 15B | **69.5%** | **5.2. MBPP (Mostly Basic Python Problems)** O MBPP foca em avaliar a capacidade de um modelo de gerar código Python correto a partir de descrições de problemas simples. Os resultados foram: | Modelo | MBPP (Python) | |-----------------|---------------| | KAT-Coder-V2 1.5B | 43.2% | | KAT-Coder-V2 3B | 53.8% | | KAT-Coder-V2 7B | 66.0% | | KAT-Coder-V2 15B | **72.4%** | **5.3. Avaliação Multilíngue** O modelo também foi avaliado em tarefas de geração de código em outras linguagens de programação, mostrando competência sólida em Java, C++, JavaScript, entre outras. **6. Conclusão e Trabalhos Futuros** O KAT-Coder-V2 representa um avanço significativo na capacidade dos LLMs de código. Sua arquitetura robusta e pipeline de treinamento em três etapas resultam em um modelo altamente capaz e alinhado com as instruções do usuário. Os resultados da avaliação demonstram seu forte desempenho em benchmarks padrão. Trabalhos futuros se concentrarão na expansão das capacidades multilíngues, na melhoria da eficiência do modelo e na exploração de aplicações especializadas em domínios específicos. **Agradecimentos** Agradecemos às comunidades de código aberto e aos criadores dos conjuntos de dados que tornaram este trabalho possível.
KAT-Coder-V2 Technical Report
March 29, 2026
Autores: Fengxiang Li, Han Zhang, Haoyang Huang, Jinghui Wang, Jinhua Hao, Kun Yuan, Mengtong Li, Minglei Zhang, Pengcheng Xu, Wenhao Zhuang, Yizhen Shao, Zongxian Feng, Can Tang, Chao Wang, Chengxiao Tong, Fan Yang, Gang Xiong, Haixuan Gao, Han Gao, Hao Wang, Haochen Liu, Hongliang Sun, Jiabao Li, Jingwen Chang, Jun Du, Junyi Peng, Leizhen Cui, Meimei Jing, Mingqi Wu, Shangpeng Yan, Shaotong Qi, Suzhe Xu, Wenxuan Zhao, Xianda Sun, Xuan Xie, Yanbo Wang, Yao Xia, Yinghan Cui, Yingpeng Chen, Yong Wang, Yuze Shi, Zhiwei Shen, Ziyu Wang, Ming Sun, Lin Ye, Bin Chen
cs.AI
Resumo
Apresentamos o KAT-Coder-V2, um modelo de codificação agentic desenvolvido pela equipe KwaiKAT da Kuaishou. O KAT-Coder-V2 adota um paradigma "Especializar-para-Depois-Unificar" que decompõe a codificação agentic em cinco domínios especializados - SWE, WebCoding, Terminal, WebSearch e General - cada um passando por ajuste fino supervisionado e aprendizado por reforço independentes, antes de serem consolidados em um único modelo via destilação on-policy. Desenvolvemos o KwaiEnv, uma infraestrutura modular que sustenta dezenas de milhares de instâncias sandbox concorrentes, e escalamos o treinamento de RL ao longo da complexidade da tarefa, alinhamento de intenção e generalização de scaffold. Propomos ainda o MCLA para estabilizar o treinamento de RL com MoE e o Tree Training para eliminar computação redundante em trajetórias estruturadas em árvore, com aceleração de até 6,2x. O KAT-Coder-V2 atinge 79,6% no SWE-bench Verified (vs. Claude Opus 4.6 com 80,8%), 88,7 no PinchBench (superando GLM-5 e MiniMax M2.7), ocupa o primeiro lugar nos três cenários de estética frontend e mantém pontuações generalistas sólidas no Terminal-Bench Hard (46,8) e tau^2-Bench (93,9). Nosso modelo está publicamente disponível em https://streamlake.com/product/kat-coder.
English
We present KAT-Coder-V2, an agentic coding model developed by the KwaiKAT team at Kuaishou. KAT-Coder-V2 adopts a "Specialize-then-Unify" paradigm that decomposes agentic coding into five expert domains - SWE, WebCoding, Terminal, WebSearch, and General - each undergoing independent supervised fine-tuning and reinforcement learning, before being consolidated into a single model via on-policy distillation. We develop KwaiEnv, a modular infrastructure sustaining tens of thousands of concurrent sandbox instances, and scale RL training along task complexity, intent alignment, and scaffold generalization. We further propose MCLA for stabilizing MoE RL training and Tree Training for eliminating redundant computation over tree-structured trajectories with up to 6.2x speedup. KAT-Coder-V2 achieves 79.6% on SWE-bench Verified (vs. Claude Opus 4.6 at 80.8%), 88.7 on PinchBench (surpassing GLM-5 and MiniMax M2.7), ranks first across all three frontend aesthetics scenarios, and maintains strong generalist scores on Terminal-Bench Hard (46.8) and tau^2-Bench (93.9). Our model is publicly available at https://streamlake.com/product/kat-coder.