ChatPaper.aiChatPaper

De los Modelos Fundacionales de Código a los Agentes y Aplicaciones: Una Guía Práctica para la Inteligencia de Código

From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence

November 23, 2025
Autores: Jian Yang, Xianglong Liu, Weifeng Lv, Ken Deng, Shawn Guo, Lin Jing, Yizhi Li, Shark Liu, Xianzhen Luo, Yuyu Luo, Changzai Pan, Ensheng Shi, Yingshui Tan, Renshuai Tao, Jiajun Wu, Xianjie Wu, Zhenhe Wu, Daoguang Zan, Chenchen Zhang, Wei Zhang, He Zhu, Terry Yue Zhuo, Kerui Cao, Xianfu Cheng, Jun Dong, Shengjie Fang, Zhiwei Fei, Xiangyuan Guan, Qipeng Guo, Zhiguang Han, Joseph James, Tianqi Luo, Renyuan Li, Yuhang Li, Yiming Liang, Congnan Liu, Jiaheng Liu, Qian Liu, Ruitong Liu, Tyler Loakman, Xiangxin Meng, Chuang Peng, Tianhao Peng, Jiajun Shi, Mingjie Tang, Boyang Wang, Haowen Wang, Yunli Wang, Fanglin Xu, Zihan Xu, Fei Yuan, Ge Zhang, Jiayi Zhang, Xinhao Zhang, Wangchunshu Zhou, Hualei Zhu, King Zhu, Brown Dai, Aishan Liu, Zhoujun Li, Chenghua Lin, Tianyu Liu, Chao Peng, Kai Shen, Libo Qin, Shuangyong Song, Zizheng Zhan, Jiajun Zhang, Jie Zhang, Zhaoxiang Zhang, Bo Zheng
cs.AI

Resumen

Los modelos de lenguaje grande (LLM) han transformado fundamentalmente el desarrollo de software automatizado al permitir la traducción directa de descripciones en lenguaje natural a código funcional, impulsando la adopción comercial a través de herramientas como Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance) y Claude Code (Anthropic). Si bien el campo ha evolucionado drásticamente desde sistemas basados en reglas hasta arquitecturas basadas en Transformer, logrando mejoras de rendimiento desde tasas de éxito de un solo dígito hasta más del 95% en benchmarks como HumanEval. En este trabajo, proporcionamos una síntesis integral y una guía práctica (una serie de experimentos analíticos y de sondeo) sobre los LLM de código, examinando sistemáticamente el ciclo de vida completo del modelo, desde la curación de datos hasta el post-entrenamiento, a través de paradigmas avanzados de prompting, pre-entrenamiento de código, ajuste fino supervisado, aprendizaje por refuerzo y agentes autónomos de codificación. Analizamos la capacidad de código de los LLM generales (GPT-4, Claude, LLaMA) y los LLM especializados en código (StarCoder, Code LLaMA, DeepSeek-Coder y QwenCoder), examinando críticamente las técnicas, decisiones de diseño y compensaciones. Además, articulamos la brecha entre la investigación y la práctica, entre la investigación académica (por ejemplo, benchmarks y tareas) y el despliegue en el mundo real (por ejemplo, tareas de código relacionadas con el software), incluyendo la corrección del código, la seguridad, la conciencia contextual de grandes bases de código y la integración con los flujos de trabajo de desarrollo, y mapeamos direcciones de investigación prometedoras con necesidades prácticas. Por último, realizamos una serie de experimentos para proporcionar un análisis integral del pre-entrenamiento de código, el ajuste fino supervisado y el aprendizaje por refuerzo, cubriendo la ley de escalamiento, la selección de frameworks, la sensibilidad de los hiperparámetros, las arquitecturas de modelo y las comparaciones de conjuntos de datos.
English
Large language models (LLMs) have fundamentally transformed automated software development by enabling direct translation of natural language descriptions into functional code, driving commercial adoption through tools like Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance), and Claude Code (Anthropic). While the field has evolved dramatically from rule-based systems to Transformer-based architectures, achieving performance improvements from single-digit to over 95\% success rates on benchmarks like HumanEval. In this work, we provide a comprehensive synthesis and practical guide (a series of analytic and probing experiments) about code LLMs, systematically examining the complete model life cycle from data curation to post-training through advanced prompting paradigms, code pre-training, supervised fine-tuning, reinforcement learning, and autonomous coding agents. We analyze the code capability of the general LLMs (GPT-4, Claude, LLaMA) and code-specialized LLMs (StarCoder, Code LLaMA, DeepSeek-Coder, and QwenCoder), critically examining the techniques, design decisions, and trade-offs. Further, we articulate the research-practice gap between academic research (e.g., benchmarks and tasks) and real-world deployment (e.g., software-related code tasks), including code correctness, security, contextual awareness of large codebases, and integration with development workflows, and map promising research directions to practical needs. Last, we conduct a series of experiments to provide a comprehensive analysis of code pre-training, supervised fine-tuning, and reinforcement learning, covering scaling law, framework selection, hyperparameter sensitivity, model architectures, and dataset comparisons.
PDF1777December 3, 2025