Von Code-Foundation-Modellen zu Agenten und Anwendungen: Ein praktischer Leitfaden für Code-Intelligenz

papers.abstract

Große Sprachmodelle (LLMs) haben die automatisierte Softwareentwicklung grundlegend verändert, indem sie die direkte Übersetzung von natürlichen Sprachbeschreibungen in funktionalen Code ermöglichen. Dies treibt die kommerzielle Nutzung durch Werkzeuge wie GitHub Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance) und Claude Code (Anthropic) voran. Während sich das Feld dramatisch von regelbasierten Systemen zu Transformer-basierten Architekturen entwickelt hat, wurden Leistungsverbesserungen von einstelligen Erfolgsquoten auf über 95 % bei Benchmarks wie HumanEval erzielt. In dieser Arbeit liefern wir eine umfassende Synthese und einen praktischen Leitfaden (eine Reihe analytischer und untersuchender Experimente) zu Code-LLMs, indem wir systematisch den vollständigen Modell-Lebenszyklus von der Datenkuratierung über das Post-Training bis hin zu fortschrittlichen Prompting-Paradigmen, Code-Pre-Training, überwachtem Fine-Tuning, Reinforcement Learning und autonomen Coding-Agenten untersuchen. Wir analysieren die Code-Fähigkeiten allgemeiner LLMs (GPT-4, Claude, LLaMA) und code-spezialisierter LLMs (StarCoder, Code LLaMA, DeepSeek-Coder und QwenCoder) und betrachten dabei kritisch die Techniken, Designentscheidungen und Kompromisse. Darüber hinaus artikulieren wir die Forschung-Praxis-Lücke zwischen akademischer Forschung (z.B. Benchmarks und Aufgaben) und realem Einsatz (z.B. softwarebezogene Code-Aufgaben), einschließlich Code-Korrektheit, Sicherheit, kontextuellem Bewusstsein für große Codebasen und Integration in Entwicklungs-Workflows, und ordnen vielversprechende Forschungsrichtungen praktischen Bedürfnissen zu. Schließlich führen wir eine Reihe von Experimenten durch, um eine umfassende Analyse von Code-Pre-Training, überwachtem Fine-Tuning und Reinforcement Learning zu liefern, die Skalierungsgesetze, Framework-Auswahl, Hyperparameter-Empfindlichkeit, Modellarchitekturen und Datenvergleiche abdeckt.

English

Large language models (LLMs) have fundamentally transformed automated software development by enabling direct translation of natural language descriptions into functional code, driving commercial adoption through tools like Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance), and Claude Code (Anthropic). While the field has evolved dramatically from rule-based systems to Transformer-based architectures, achieving performance improvements from single-digit to over 95\% success rates on benchmarks like HumanEval. In this work, we provide a comprehensive synthesis and practical guide (a series of analytic and probing experiments) about code LLMs, systematically examining the complete model life cycle from data curation to post-training through advanced prompting paradigms, code pre-training, supervised fine-tuning, reinforcement learning, and autonomous coding agents. We analyze the code capability of the general LLMs (GPT-4, Claude, LLaMA) and code-specialized LLMs (StarCoder, Code LLaMA, DeepSeek-Coder, and QwenCoder), critically examining the techniques, design decisions, and trade-offs. Further, we articulate the research-practice gap between academic research (e.g., benchmarks and tasks) and real-world deployment (e.g., software-related code tasks), including code correctness, security, contextual awareness of large codebases, and integration with development workflows, and map promising research directions to practical needs. Last, we conduct a series of experiments to provide a comprehensive analysis of code pre-training, supervised fine-tuning, and reinforcement learning, covering scaling law, framework selection, hyperparameter sensitivity, model architectures, and dataset comparisons.

Von Code-Foundation-Modellen zu Agenten und Anwendungen: Ein praktischer Leitfaden für Code-Intelligenz

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

papers.abstract

Support