От базовых моделей для работы с кодом к агентам и приложениям: практическое руководство по интеллектуальной обработке кода

Аннотация

Крупные языковые модели (LLM) кардинально преобразовали автоматизированную разработку программного обеспечения, обеспечив прямую трансляцию описаний на естественном языке в функциональный код, что стимулировало коммерческое внедрение таких инструментов, как GitHub Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance) и Claude Code (Anthropic). Хотя область претерпела драматическую эволюцию — от систем на основе правил до архитектур на базе трансформеров, — что позволило добиться роста производительности с единиц до более 95% успеха на бенчмарках типа HumanEval. В данной работе мы представляем всесторонний обзор и практическое руководство (серию аналитических и зондирующих экспериментов) по кодогенерирующим LLM, систематически исследуя полный жизненный цикл модели: от курации данных до пост-обучения, включая передовые парадигмы промптинга, претренинг кода, контролируемое тонкое настройка, обучение с подкреплением и автономные кодогенерирующие агенты. Мы анализируем способности к генерации кода у универсальных LLM (GPT-4, Claude, LLaMA) и специализированных кодогенерирующих LLM (StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder), критически оценивая методы, проектные решения и компромиссы. Кроме того, мы формулируем разрыв между исследованиями и практикой, разделяющий академические изыскания (например, бенчмарки и задачи) и реальное развертывание (например, задачи, связанные с программным кодом), включая корректность и безопасность кода, контекстную осведомленность в рамках больших кодовых баз и интеграцию в рабочие процессы разработки, и сопоставляем перспективные направления исследований с практическими потребностями. Наконец, мы проводим серию экспериментов для всестороннего анализа претренинга кода, контролируемого тонкого настройка и обучения с подкреплением, охватывающую законы масштабирования, выбор фреймворков, чувствительность к гиперпараметрам, архитектуры моделей и сравнение наборов данных.

English

Large language models (LLMs) have fundamentally transformed automated software development by enabling direct translation of natural language descriptions into functional code, driving commercial adoption through tools like Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance), and Claude Code (Anthropic). While the field has evolved dramatically from rule-based systems to Transformer-based architectures, achieving performance improvements from single-digit to over 95\% success rates on benchmarks like HumanEval. In this work, we provide a comprehensive synthesis and practical guide (a series of analytic and probing experiments) about code LLMs, systematically examining the complete model life cycle from data curation to post-training through advanced prompting paradigms, code pre-training, supervised fine-tuning, reinforcement learning, and autonomous coding agents. We analyze the code capability of the general LLMs (GPT-4, Claude, LLaMA) and code-specialized LLMs (StarCoder, Code LLaMA, DeepSeek-Coder, and QwenCoder), critically examining the techniques, design decisions, and trade-offs. Further, we articulate the research-practice gap between academic research (e.g., benchmarks and tasks) and real-world deployment (e.g., software-related code tasks), including code correctness, security, contextual awareness of large codebases, and integration with development workflows, and map promising research directions to practical needs. Last, we conduct a series of experiments to provide a comprehensive analysis of code pre-training, supervised fine-tuning, and reinforcement learning, covering scaling law, framework selection, hyperparameter sensitivity, model architectures, and dataset comparisons.

От базовых моделей для работы с кодом к агентам и приложениям: практическое руководство по интеллектуальной обработке кода

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

Аннотация

Support