ChatPaper.aiChatPaper

Effiziente Code-Embeddings aus Code-Generierungsmodellen

Efficient Code Embeddings from Code Generation Models

August 29, 2025
papers.authors: Daria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao
cs.AI

papers.abstract

jina-code-embeddings ist eine neuartige Suite von Code-Embedding-Modellen, die entwickelt wurde, um Code anhand von natürlichen Sprachabfragen abzurufen, technische Fragen zu beantworten und semantisch ähnliche Code-Snippets über verschiedene Programmiersprachen hinweg zu identifizieren. Das Modell nutzt innovativ ein autoregressives Backbone-Modell, das sowohl auf Text als auch auf Code vortrainiert wurde, und generiert Embeddings durch Last-Token-Pooling. Wir skizzieren das Trainingsrezept und demonstrieren state-of-the-art Leistungen trotz der relativ geringen Größe der Modelle, wodurch dieser Ansatz zur Konstruktion von Code-Embedding-Modellen validiert wird.
English
jina-code-embeddings is a novel code embedding model suite designed to retrieve code from natural language queries, perform technical question-answering, and identify semantically similar code snippets across programming languages. It makes innovative use of an autoregressive backbone pre-trained on both text and code, generating embeddings via last-token pooling. We outline the training recipe and demonstrate state-of-the-art performance despite the relatively small size of the models, validating this approach to code embedding model construction.
PDF142September 1, 2025