CodeTF: Biblioteca Integral de Transformers para Modelos de Lenguaje de Código de Última Generación

Resumen

La inteligencia de código juega un papel clave en la transformación de la ingeniería de software moderna. Recientemente, los modelos basados en aprendizaje profundo, especialmente los grandes modelos de lenguaje (LLMs) basados en Transformers, han demostrado un potencial notable para abordar estas tareas al aprovechar grandes cantidades de datos de código abierto y las características de los lenguajes de programación. Sin embargo, el desarrollo y despliegue de dichos modelos suelen requerir experiencia tanto en aprendizaje automático como en ingeniería de software, lo que crea una barrera para su adopción. En este artículo, presentamos CodeTF, una biblioteca de código abierto basada en Transformers para LLMs de código de última generación e inteligencia de código. Siguiendo los principios de diseño modular y marco extensible, diseñamos CodeTF con una interfaz unificada para permitir un acceso y desarrollo rápido en diferentes tipos de modelos, conjuntos de datos y tareas. Nuestra biblioteca incluye una colección de modelos LLMs de código preentrenados y benchmarks populares de código, además de una interfaz estandarizada para entrenar y servir LLMs de código de manera eficiente, y características de datos como analizadores específicos de lenguajes y funciones de utilidad para extraer atributos de código. En este artículo, describimos los principios de diseño, la arquitectura, los módulos y componentes clave, y realizamos una comparación con otras herramientas de biblioteca relacionadas. Finalmente, esperamos que CodeTF pueda cerrar la brecha entre el aprendizaje automático/IA generativa y la ingeniería de software, ofreciendo una solución integral de código abierto para desarrolladores, investigadores y profesionales.

English

Code intelligence plays a key role in transforming modern software engineering. Recently, deep learning-based models, especially Transformer-based large language models (LLMs), have demonstrated remarkable potential in tackling these tasks by leveraging massive open-source code data and programming language features. However, the development and deployment of such models often require expertise in both machine learning and software engineering, creating a barrier for the model adoption. In this paper, we present CodeTF, an open-source Transformer-based library for state-of-the-art Code LLMs and code intelligence. Following the principles of modular design and extensible framework, we design CodeTF with a unified interface to enable rapid access and development across different types of models, datasets and tasks. Our library supports a collection of pretrained Code LLM models and popular code benchmarks, including a standardized interface to train and serve code LLMs efficiently, and data features such as language-specific parsers and utility functions for extracting code attributes. In this paper, we describe the design principles, the architecture, key modules and components, and compare with other related library tools. Finally, we hope CodeTF is able to bridge the gap between machine learning/generative AI and software engineering, providing a comprehensive open-source solution for developers, researchers, and practitioners.

CodeTF: Biblioteca Integral de Transformers para Modelos de Lenguaje de Código de Última Generación

CodeTF: One-stop Transformer Library for State-of-the-art Code LLM

Resumen

Support