Représentations efficaces de code à partir de modèles de génération de code

Résumé

jina-code-embeddings est une suite innovante de modèles d'incorporation de code conçue pour récupérer du code à partir de requêtes en langage naturel, répondre à des questions techniques et identifier des extraits de code sémantiquement similaires à travers différents langages de programmation. Elle utilise de manière novatrice une architecture autoregressive pré-entraînée à la fois sur du texte et du code, générant des incorporations via un mécanisme de pooling sur le dernier token. Nous décrivons la méthode d'entraînement et démontrons des performances de pointe malgré la taille relativement réduite des modèles, validant ainsi cette approche pour la construction de modèles d'incorporation de code.

English

jina-code-embeddings is a novel code embedding model suite designed to retrieve code from natural language queries, perform technical question-answering, and identify semantically similar code snippets across programming languages. It makes innovative use of an autoregressive backbone pre-trained on both text and code, generating embeddings via last-token pooling. We outline the training recipe and demonstrate state-of-the-art performance despite the relatively small size of the models, validating this approach to code embedding model construction.