Des modèles de fondation de code aux agents et applications : un guide pratique pour l'intelligence du code
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence
November 23, 2025
papers.authors: Jian Yang, Xianglong Liu, Weifeng Lv, Ken Deng, Shawn Guo, Lin Jing, Yizhi Li, Shark Liu, Xianzhen Luo, Yuyu Luo, Changzai Pan, Ensheng Shi, Yingshui Tan, Renshuai Tao, Jiajun Wu, Xianjie Wu, Zhenhe Wu, Daoguang Zan, Chenchen Zhang, Wei Zhang, He Zhu, Terry Yue Zhuo, Kerui Cao, Xianfu Cheng, Jun Dong, Shengjie Fang, Zhiwei Fei, Xiangyuan Guan, Qipeng Guo, Zhiguang Han, Joseph James, Tianqi Luo, Renyuan Li, Yuhang Li, Yiming Liang, Congnan Liu, Jiaheng Liu, Qian Liu, Ruitong Liu, Tyler Loakman, Xiangxin Meng, Chuang Peng, Tianhao Peng, Jiajun Shi, Mingjie Tang, Boyang Wang, Haowen Wang, Yunli Wang, Fanglin Xu, Zihan Xu, Fei Yuan, Ge Zhang, Jiayi Zhang, Xinhao Zhang, Wangchunshu Zhou, Hualei Zhu, King Zhu, Brown Dai, Aishan Liu, Zhoujun Li, Chenghua Lin, Tianyu Liu, Chao Peng, Kai Shen, Libo Qin, Shuangyong Song, Zizheng Zhan, Jiajun Zhang, Jie Zhang, Zhaoxiang Zhang, Bo Zheng
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont fondamentalement transformé le développement logiciel automatisé en permettant la traduction directe de descriptions en langage naturel en code fonctionnel, stimulant ainsi l'adoption commerciale grâce à des outils tels que Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance) et Claude Code (Anthropic). Bien que le domaine ait considérablement évolué, passant de systèmes basés sur des règles à des architectures fondées sur les Transformers, permettant d'atteindre des améliorations de performance allant de taux de réussite à un chiffre à plus de 95 % sur des benchmarks comme HumanEval. Dans ce travail, nous proposons une synthèse complète et un guide pratique (une série d'expériences analytiques et exploratoires) sur les LLM pour le code, en examinant systématiquement le cycle de vie complet des modèles, de la curation des données au post-entraînement, en passant par les paradigmes de prompting avancés, le pré-entraînement sur le code, le fine-tuning supervisé, l'apprentissage par renforcement et les agents de codage autonomes. Nous analysons les capacités en génération de code des LLM généraux (GPT-4, Claude, LLaMA) et des LLM spécialisés dans le code (StarCoder, Code LLaMA, DeepSeek-Coder et QwenCoder), en examinant de manière critique les techniques, les décisions de conception et les compromis. De plus, nous articulons l'écart entre la recherche et la pratique, entre la recherche académique (par exemple, les benchmarks et les tâches) et le déploiement réel (par exemple, les tâches de code liées au logiciel), incluant la correction du code, la sécurité, la conscience contextuelle des grandes bases de code et l'intégration aux flux de travail de développement, et nous cartographions les directions de recherche prometteuses en fonction des besoins pratiques. Enfin, nous menons une série d'expériences pour fournir une analyse complète du pré-entraînement sur le code, du fine-tuning supervisé et de l'apprentissage par renforcement, couvrant les lois d'échelle, la sélection des frameworks, la sensibilité des hyperparamètres, les architectures de modèles et les comparaisons de jeux de données.
English
Large language models (LLMs) have fundamentally transformed automated software development by enabling direct translation of natural language descriptions into functional code, driving commercial adoption through tools like Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance), and Claude Code (Anthropic). While the field has evolved dramatically from rule-based systems to Transformer-based architectures, achieving performance improvements from single-digit to over 95\% success rates on benchmarks like HumanEval. In this work, we provide a comprehensive synthesis and practical guide (a series of analytic and probing experiments) about code LLMs, systematically examining the complete model life cycle from data curation to post-training through advanced prompting paradigms, code pre-training, supervised fine-tuning, reinforcement learning, and autonomous coding agents. We analyze the code capability of the general LLMs (GPT-4, Claude, LLaMA) and code-specialized LLMs (StarCoder, Code LLaMA, DeepSeek-Coder, and QwenCoder), critically examining the techniques, design decisions, and trade-offs. Further, we articulate the research-practice gap between academic research (e.g., benchmarks and tasks) and real-world deployment (e.g., software-related code tasks), including code correctness, security, contextual awareness of large codebases, and integration with development workflows, and map promising research directions to practical needs. Last, we conduct a series of experiments to provide a comprehensive analysis of code pre-training, supervised fine-tuning, and reinforcement learning, covering scaling law, framework selection, hyperparameter sensitivity, model architectures, and dataset comparisons.