De Modelos de Fundação de Código a Agentes e Aplicações: Um Guia Prático para a Inteligência de Código

Resumo

Os grandes modelos de linguagem (LLMs) transformaram fundamentalmente o desenvolvimento de software automatizado ao permitir a tradução direta de descrições em linguagem natural em código funcional, impulsionando a adoção comercial por meio de ferramentas como Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance) e Claude Code (Anthropic). Embora a área tenha evoluído drasticamente de sistemas baseados em regras para arquiteturas baseadas em Transformer, alcançando melhorias de desempenho de taxas de sucesso de um dígito para mais de 95% em benchmarks como HumanEval. Neste trabalho, fornecemos uma síntese abrangente e um guia prático (uma série de experimentos analíticos e de sondagem) sobre LLMs de código, examinando sistematicamente o ciclo de vida completo do modelo, desde a curadoria de dados até o pós-treinamento, por meio de paradigmas avançados de *prompting*, pré-treinamento de código, ajuste fino supervisionado, aprendizado por reforço e agentes autônomos de codificação. Analisamos a capacidade de código dos LLMs gerais (GPT-4, Claude, LLaMA) e dos LLMs especializados em código (StarCoder, Code LLaMA, DeepSeek-Coder e QwenCoder), examinando criticamente as técnicas, decisões de projeto e compensações (*trade-offs*). Além disso, articulamos a lacuna entre pesquisa e prática, entre a pesquisa acadêmica (por exemplo, *benchmarks* e tarefas) e a implantação no mundo real (por exemplo, tarefas de código relacionadas a software), incluindo correção de código, segurança, consciência contextual de grandes bases de código e integração com fluxos de trabalho de desenvolvimento, e mapeamos direções de pesquisa promissoras para necessidades práticas. Por fim, realizamos uma série de experimentos para fornecer uma análise abrangente do pré-treinamento de código, ajuste fino supervisionado e aprendizado por reforço, abrangendo a lei de escalonamento (*scaling law*), seleção de *framework*, sensibilidade de hiperparâmetros, arquiteturas de modelo e comparações de conjuntos de dados.

English

Large language models (LLMs) have fundamentally transformed automated software development by enabling direct translation of natural language descriptions into functional code, driving commercial adoption through tools like Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance), and Claude Code (Anthropic). While the field has evolved dramatically from rule-based systems to Transformer-based architectures, achieving performance improvements from single-digit to over 95\% success rates on benchmarks like HumanEval. In this work, we provide a comprehensive synthesis and practical guide (a series of analytic and probing experiments) about code LLMs, systematically examining the complete model life cycle from data curation to post-training through advanced prompting paradigms, code pre-training, supervised fine-tuning, reinforcement learning, and autonomous coding agents. We analyze the code capability of the general LLMs (GPT-4, Claude, LLaMA) and code-specialized LLMs (StarCoder, Code LLaMA, DeepSeek-Coder, and QwenCoder), critically examining the techniques, design decisions, and trade-offs. Further, we articulate the research-practice gap between academic research (e.g., benchmarks and tasks) and real-world deployment (e.g., software-related code tasks), including code correctness, security, contextual awareness of large codebases, and integration with development workflows, and map promising research directions to practical needs. Last, we conduct a series of experiments to provide a comprehensive analysis of code pre-training, supervised fine-tuning, and reinforcement learning, covering scaling law, framework selection, hyperparameter sensitivity, model architectures, and dataset comparisons.