ChatPaper.aiChatPaper

Von Code-Foundation-Modellen zu Agenten und Anwendungen: Ein praktischer Leitfaden für Code-Intelligenz

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

November 23, 2025
papers.authors: Jian Yang, Xianglong Liu, Weifeng Lv, Ken Deng, Shawn Guo, Lin Jing, Yizhi Li, Shark Liu, Xianzhen Luo, Yuyu Luo, Changzai Pan, Ensheng Shi, Yingshui Tan, Renshuai Tao, Jiajun Wu, Xianjie Wu, Zhenhe Wu, Daoguang Zan, Chenchen Zhang, Wei Zhang, He Zhu, Terry Yue Zhuo, Kerui Cao, Xianfu Cheng, Jun Dong, Shengjie Fang, Zhiwei Fei, Xiangyuan Guan, Qipeng Guo, Zhiguang Han, Joseph James, Tianqi Luo, Renyuan Li, Yuhang Li, Yiming Liang, Congnan Liu, Jiaheng Liu, Qian Liu, Ruitong Liu, Tyler Loakman, Xiangxin Meng, Chuang Peng, Tianhao Peng, Jiajun Shi, Mingjie Tang, Boyang Wang, Haowen Wang, Yunli Wang, Fanglin Xu, Zihan Xu, Fei Yuan, Ge Zhang, Jiayi Zhang, Xinhao Zhang, Wangchunshu Zhou, Hualei Zhu, King Zhu, Brown Dai, Aishan Liu, Zhoujun Li, Chenghua Lin, Tianyu Liu, Chao Peng, Kai Shen, Libo Qin, Shuangyong Song, Zizheng Zhan, Jiajun Zhang, Jie Zhang, Zhaoxiang Zhang, Bo Zheng
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben die automatisierte Softwareentwicklung grundlegend verändert, indem sie die direkte Übersetzung von natürlichen Sprachbeschreibungen in funktionalen Code ermöglichen. Dies treibt die kommerzielle Nutzung durch Werkzeuge wie GitHub Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance) und Claude Code (Anthropic) voran. Während sich das Feld dramatisch von regelbasierten Systemen zu Transformer-basierten Architekturen entwickelt hat, wurden Leistungsverbesserungen von einstelligen Erfolgsquoten auf über 95 % bei Benchmarks wie HumanEval erzielt. In dieser Arbeit liefern wir eine umfassende Synthese und einen praktischen Leitfaden (eine Reihe analytischer und untersuchender Experimente) zu Code-LLMs, indem wir systematisch den vollständigen Modell-Lebenszyklus von der Datenkuratierung über das Post-Training bis hin zu fortschrittlichen Prompting-Paradigmen, Code-Pre-Training, überwachtem Fine-Tuning, Reinforcement Learning und autonomen Coding-Agenten untersuchen. Wir analysieren die Code-Fähigkeiten allgemeiner LLMs (GPT-4, Claude, LLaMA) und code-spezialisierter LLMs (StarCoder, Code LLaMA, DeepSeek-Coder und QwenCoder) und betrachten dabei kritisch die Techniken, Designentscheidungen und Kompromisse. Darüber hinaus artikulieren wir die Forschung-Praxis-Lücke zwischen akademischer Forschung (z.B. Benchmarks und Aufgaben) und realem Einsatz (z.B. softwarebezogene Code-Aufgaben), einschließlich Code-Korrektheit, Sicherheit, kontextuellem Bewusstsein für große Codebasen und Integration in Entwicklungs-Workflows, und ordnen vielversprechende Forschungsrichtungen praktischen Bedürfnissen zu. Schließlich führen wir eine Reihe von Experimenten durch, um eine umfassende Analyse von Code-Pre-Training, überwachtem Fine-Tuning und Reinforcement Learning zu liefern, die Skalierungsgesetze, Framework-Auswahl, Hyperparameter-Empfindlichkeit, Modellarchitekturen und Datenvergleiche abdeckt.
English
Large language models (LLMs) have fundamentally transformed automated software development by enabling direct translation of natural language descriptions into functional code, driving commercial adoption through tools like Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance), and Claude Code (Anthropic). While the field has evolved dramatically from rule-based systems to Transformer-based architectures, achieving performance improvements from single-digit to over 95\% success rates on benchmarks like HumanEval. In this work, we provide a comprehensive synthesis and practical guide (a series of analytic and probing experiments) about code LLMs, systematically examining the complete model life cycle from data curation to post-training through advanced prompting paradigms, code pre-training, supervised fine-tuning, reinforcement learning, and autonomous coding agents. We analyze the code capability of the general LLMs (GPT-4, Claude, LLaMA) and code-specialized LLMs (StarCoder, Code LLaMA, DeepSeek-Coder, and QwenCoder), critically examining the techniques, design decisions, and trade-offs. Further, we articulate the research-practice gap between academic research (e.g., benchmarks and tasks) and real-world deployment (e.g., software-related code tasks), including code correctness, security, contextual awareness of large codebases, and integration with development workflows, and map promising research directions to practical needs. Last, we conduct a series of experiments to provide a comprehensive analysis of code pre-training, supervised fine-tuning, and reinforcement learning, covering scaling law, framework selection, hyperparameter sensitivity, model architectures, and dataset comparisons.
PDF1777December 3, 2025