ChatPaper.aiChatPaper

Embedding di Codice Efficienti da Modelli di Generazione di Codice

Efficient Code Embeddings from Code Generation Models

August 29, 2025
Autori: Daria Kryvosheieva, Saba Sturua, Michael Günther, Scott Martens, Han Xiao
cs.AI

Abstract

jina-code-embeddings è una suite innovativa di modelli di embedding per codice progettata per recuperare codice da query in linguaggio naturale, eseguire risposte a domande tecniche e identificare frammenti di codice semanticamente simili tra diversi linguaggi di programmazione. Utilizza in modo innovativo un'architettura autoregressiva pre-addestrata sia su testo che su codice, generando embedding tramite il pooling sull'ultimo token. Descriviamo la procedura di addestramento e dimostriamo prestazioni all'avanguardia nonostante le dimensioni relativamente ridotte dei modelli, validando così questo approccio alla costruzione di modelli di embedding per codice.
English
jina-code-embeddings is a novel code embedding model suite designed to retrieve code from natural language queries, perform technical question-answering, and identify semantically similar code snippets across programming languages. It makes innovative use of an autoregressive backbone pre-trained on both text and code, generating embeddings via last-token pooling. We outline the training recipe and demonstrate state-of-the-art performance despite the relatively small size of the models, validating this approach to code embedding model construction.
PDF182September 1, 2025