Incrustaciones de código eficientes a partir de modelos de generación de código

Resumen

jina-code-embeddings es un conjunto innovador de modelos de incrustación de código diseñado para recuperar código a partir de consultas en lenguaje natural, realizar preguntas y respuestas técnicas, e identificar fragmentos de código semánticamente similares en distintos lenguajes de programación. Utiliza de manera innovadora una arquitectura autoregresiva preentrenada tanto en texto como en código, generando incrustaciones mediante la técnica de agrupación por último token. Describimos la receta de entrenamiento y demostramos un rendimiento de vanguardia a pesar del tamaño relativamente pequeño de los modelos, validando así este enfoque para la construcción de modelos de incrustación de código.

English

jina-code-embeddings is a novel code embedding model suite designed to retrieve code from natural language queries, perform technical question-answering, and identify semantically similar code snippets across programming languages. It makes innovative use of an autoregressive backbone pre-trained on both text and code, generating embeddings via last-token pooling. We outline the training recipe and demonstrate state-of-the-art performance despite the relatively small size of the models, validating this approach to code embedding model construction.