Efficiënte Code-Embeddingen uit Codegeneratiemodellen
Efficient Code Embeddings from Code Generation Models
August 29, 2025
Auteurs: Daria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao
cs.AI
Samenvatting
jina-code-embeddings is een innovatieve suite van code-embeddingmodellen die is ontworpen om code op te halen op basis van natuurlijke taalvragen, technische vraag-en-antwoordtaken uit te voeren en semantisch vergelijkbare codefragmenten te identificeren over verschillende programmeertalen heen. Het maakt op innovatieve wijze gebruik van een autoregressieve backbone die vooraf is getraind op zowel tekst als code, waarbij embeddings worden gegenereerd via last-token pooling. We beschrijven het trainingsrecept en demonstreren state-of-the-art prestaties ondanks de relatief kleine omvang van de modellen, wat deze aanpak voor de constructie van code-embeddingmodellen valideert.
English
jina-code-embeddings is a novel code embedding model suite designed to
retrieve code from natural language queries, perform technical
question-answering, and identify semantically similar code snippets across
programming languages. It makes innovative use of an autoregressive backbone
pre-trained on both text and code, generating embeddings via last-token
pooling. We outline the training recipe and demonstrate state-of-the-art
performance despite the relatively small size of the models, validating this
approach to code embedding model construction.