EmbeddingGemma: Rappresentazioni Testuali Potenti e Leggere
EmbeddingGemma: Powerful and Lightweight Text Representations
September 24, 2025
Autori: Henrique Schechter Vera, Sahil Dua, Biao Zhang, Daniel Salz, Ryan Mullins, Sindhu Raghuram Panyam, Sara Smoot, Iftekhar Naim, Joe Zou, Feiyang Chen, Daniel Cer, Alice Lisak, Min Choi, Lucas Gonzalez, Omar Sanseviero, Glenn Cameron, Ian Ballantyne, Kat Black, Kaifeng Chen, Weiyi Wang, Zhe Li, Gus Martins, Jinhyuk Lee, Mark Sherwood, Juyeong Ji, Renjie Wu, Jingxiao Zheng, Jyotinder Singh, Abheesht Sharma, Divya Sreepat, Aashi Jain, Adham Elarabawy, AJ Co, Andreas Doumanoglou, Babak Samari, Ben Hora, Brian Potetz, Dahun Kim, Enrique Alfonseca, Fedor Moiseev, Feng Han, Frank Palma Gomez, Gustavo Hernández Ábrego, Hesen Zhang, Hui Hui, Jay Han, Karan Gill, Ke Chen, Koert Chen, Madhuri Shanbhogue, Michael Boratko, Paul Suganthan, Sai Meher Karthik Duddu, Sandeep Mariserla, Setareh Ariafar, Shanfeng Zhang, Shijie Zhang, Simon Baumgartner, Sonam Goenka, Steve Qiu, Tanmaya Dabral, Trevor Walker, Vikram Rao, Waleed Khawaja, Wenlei Zhou, Xiaoqi Ren, Ye Xia, Yichang Chen, Yi-Ting Chen, Zhe Dong, Zhongli Ding, Francesco Visin, Gaël Liu, Jiageng Zhang, Kathleen Kenealy, Michelle Casbon, Ravin Kumar, Thomas Mesnard, Zach Gleicher, Cormac Brick, Olivier Lacombe, Adam Roberts, Yunhsuan Sung, Raphael Hoffmann, Tris Warkentin, Armand Joulin, Tom Duerig, Mojtaba Seyedhosseini
cs.AI
Abstract
Presentiamo EmbeddingGemma, un nuovo modello leggero e aperto per l'incorporamento del testo, basato sulla famiglia di modelli linguistici Gemma 3. La nostra innovativa ricetta di addestramento cattura strategicamente la conoscenza da modelli più grandi attraverso l'inizializzazione encoder-decoder e la distillazione geometrica degli embedding. Miglioriamo la robustezza e l'espressività del modello con un regolarizzatore a dispersione e garantiamo la generalizzabilità unendo checkpoint da miscele ottimizzate e variate. Valutato sul Massive Text Embedding Benchmark (MTEB) in ambiti multilingue, inglese e di codice, EmbeddingGemma (300M) raggiunge risultati all'avanguardia. In particolare, supera i precedenti modelli di punta, sia proprietari che aperti, con meno di 500M parametri, e offre prestazioni paragonabili a modelli di dimensioni doppie, garantendo un rapporto prestazioni-costo eccezionale. Notevolmente, questo vantaggio persiste quando si quantizzano i pesi del modello o si troncano gli output degli embedding. Ciò rende EmbeddingGemma particolarmente adatto per casi d'uso a bassa latenza e alto throughput, come applicazioni su dispositivo. Forniamo studi di ablazione che esplorano le nostre scelte progettuali chiave. Rilasciamo EmbeddingGemma alla comunità per promuovere ulteriori ricerche.
English
We introduce EmbeddingGemma, a new lightweight, open text embedding model
based on the Gemma 3 language model family. Our innovative training recipe
strategically captures knowledge from larger models via encoder-decoder
initialization and geometric embedding distillation. We improve model
robustness and expressiveness with a spread-out regularizer, and ensure
generalizability by merging checkpoints from varied, optimized mixtures.
Evaluated on the Massive Text Embedding Benchmark (MTEB) across multilingual,
English, and code domains, EmbeddingGemma (300M) achieves state-of-the-art
results. Notably, it outperforms prior top models, both proprietary and open,
with fewer than 500M parameters, and provides performance comparable to models
double its size, offering an exceptional performance-to-cost ratio. Remarkably,
this lead persists when quantizing model weights or truncating embedding
outputs. This makes EmbeddingGemma particularly well-suited for low-latency and
high-throughput use cases such as on-device applications. We provide ablation
studies exploring our key design choices. We release EmbeddingGemma to the
community to promote further research.