Incrustaciones de código eficientes a partir de modelos de generación de código
Efficient Code Embeddings from Code Generation Models
August 29, 2025
Autores: Daria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao
cs.AI
Resumen
jina-code-embeddings es un conjunto innovador de modelos de incrustación de código diseñado para recuperar código a partir de consultas en lenguaje natural, realizar preguntas y respuestas técnicas, e identificar fragmentos de código semánticamente similares en distintos lenguajes de programación. Utiliza de manera innovadora una arquitectura autoregresiva preentrenada tanto en texto como en código, generando incrustaciones mediante la técnica de agrupación por último token. Describimos la receta de entrenamiento y demostramos un rendimiento de vanguardia a pesar del tamaño relativamente pequeño de los modelos, validando así este enfoque para la construcción de modelos de incrustación de código.
English
jina-code-embeddings is a novel code embedding model suite designed to
retrieve code from natural language queries, perform technical
question-answering, and identify semantically similar code snippets across
programming languages. It makes innovative use of an autoregressive backbone
pre-trained on both text and code, generating embeddings via last-token
pooling. We outline the training recipe and demonstrate state-of-the-art
performance despite the relatively small size of the models, validating this
approach to code embedding model construction.