Représentations efficaces de code à partir de modèles de génération de code
Efficient Code Embeddings from Code Generation Models
August 29, 2025
papers.authors: Daria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao
cs.AI
papers.abstract
jina-code-embeddings est une suite innovante de modèles d'incorporation de code conçue pour récupérer du code à partir de requêtes en langage naturel, répondre à des questions techniques et identifier des extraits de code sémantiquement similaires à travers différents langages de programmation. Elle utilise de manière novatrice une architecture autoregressive pré-entraînée à la fois sur du texte et du code, générant des incorporations via un mécanisme de pooling sur le dernier token. Nous décrivons la méthode d'entraînement et démontrons des performances de pointe malgré la taille relativement réduite des modèles, validant ainsi cette approche pour la construction de modèles d'incorporation de code.
English
jina-code-embeddings is a novel code embedding model suite designed to
retrieve code from natural language queries, perform technical
question-answering, and identify semantically similar code snippets across
programming languages. It makes innovative use of an autoregressive backbone
pre-trained on both text and code, generating embeddings via last-token
pooling. We outline the training recipe and demonstrate state-of-the-art
performance despite the relatively small size of the models, validating this
approach to code embedding model construction.