ChatPaper.aiChatPaper

Efficiënte Code-Embeddingen uit Codegeneratiemodellen

Efficient Code Embeddings from Code Generation Models

August 29, 2025
Auteurs: Daria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao
cs.AI

Samenvatting

jina-code-embeddings is een innovatieve suite van code-embeddingmodellen die is ontworpen om code op te halen op basis van natuurlijke taalvragen, technische vraag-en-antwoordtaken uit te voeren en semantisch vergelijkbare codefragmenten te identificeren over verschillende programmeertalen heen. Het maakt op innovatieve wijze gebruik van een autoregressieve backbone die vooraf is getraind op zowel tekst als code, waarbij embeddings worden gegenereerd via last-token pooling. We beschrijven het trainingsrecept en demonstreren state-of-the-art prestaties ondanks de relatief kleine omvang van de modellen, wat deze aanpak voor de constructie van code-embeddingmodellen valideert.
English
jina-code-embeddings is a novel code embedding model suite designed to retrieve code from natural language queries, perform technical question-answering, and identify semantically similar code snippets across programming languages. It makes innovative use of an autoregressive backbone pre-trained on both text and code, generating embeddings via last-token pooling. We outline the training recipe and demonstrate state-of-the-art performance despite the relatively small size of the models, validating this approach to code embedding model construction.
PDF182September 1, 2025