EmbeddingGemma: Мощные и легковесные текстовые представления
EmbeddingGemma: Powerful and Lightweight Text Representations
September 24, 2025
Авторы: Henrique Schechter Vera, Sahil Dua, Biao Zhang, Daniel Salz, Ryan Mullins, Sindhu Raghuram Panyam, Sara Smoot, Iftekhar Naim, Joe Zou, Feiyang Chen, Daniel Cer, Alice Lisak, Min Choi, Lucas Gonzalez, Omar Sanseviero, Glenn Cameron, Ian Ballantyne, Kat Black, Kaifeng Chen, Weiyi Wang, Zhe Li, Gus Martins, Jinhyuk Lee, Mark Sherwood, Juyeong Ji, Renjie Wu, Jingxiao Zheng, Jyotinder Singh, Abheesht Sharma, Divya Sreepat, Aashi Jain, Adham Elarabawy, AJ Co, Andreas Doumanoglou, Babak Samari, Ben Hora, Brian Potetz, Dahun Kim, Enrique Alfonseca, Fedor Moiseev, Feng Han, Frank Palma Gomez, Gustavo Hernández Ábrego, Hesen Zhang, Hui Hui, Jay Han, Karan Gill, Ke Chen, Koert Chen, Madhuri Shanbhogue, Michael Boratko, Paul Suganthan, Sai Meher Karthik Duddu, Sandeep Mariserla, Setareh Ariafar, Shanfeng Zhang, Shijie Zhang, Simon Baumgartner, Sonam Goenka, Steve Qiu, Tanmaya Dabral, Trevor Walker, Vikram Rao, Waleed Khawaja, Wenlei Zhou, Xiaoqi Ren, Ye Xia, Yichang Chen, Yi-Ting Chen, Zhe Dong, Zhongli Ding, Francesco Visin, Gaël Liu, Jiageng Zhang, Kathleen Kenealy, Michelle Casbon, Ravin Kumar, Thomas Mesnard, Zach Gleicher, Cormac Brick, Olivier Lacombe, Adam Roberts, Yunhsuan Sung, Raphael Hoffmann, Tris Warkentin, Armand Joulin, Tom Duerig, Mojtaba Seyedhosseini
cs.AI
Аннотация
Мы представляем EmbeddingGemma — новую облегчённую модель для создания текстовых эмбеддингов с открытым исходным кодом, основанную на семействе языковых моделей Gemma 3. Наш инновационный подход к обучению стратегически извлекает знания из более крупных моделей с помощью инициализации кодировщика-декодера и дистилляции геометрических эмбеддингов. Мы повышаем устойчивость и выразительность модели с помощью регуляризатора, способствующего распределению, и обеспечиваем обобщаемость за счёт объединения контрольных точек из различных оптимизированных смесей. Оцененная на Massive Text Embedding Benchmark (MTEB) в многоязычных, английских и программных доменах, EmbeddingGemma (300M) демонстрирует результаты на уровне современных достижений. Примечательно, что она превосходит предыдущие топовые модели, как проприетарные, так и открытые, с менее чем 500 миллионами параметров, и обеспечивает производительность, сопоставимую с моделями вдвое большего размера, предлагая исключительное соотношение производительности и затрат. Этот лидерство сохраняется даже при квантовании весов модели или усечении выходных эмбеддингов, что делает EmbeddingGemma особенно подходящей для задач с низкой задержкой и высокой пропускной способностью, таких как приложения на устройствах. Мы предоставляем исследования, изучающие ключевые проектные решения, и выпускаем EmbeddingGemma в сообщество для содействия дальнейшим исследованиям.
English
We introduce EmbeddingGemma, a new lightweight, open text embedding model
based on the Gemma 3 language model family. Our innovative training recipe
strategically captures knowledge from larger models via encoder-decoder
initialization and geometric embedding distillation. We improve model
robustness and expressiveness with a spread-out regularizer, and ensure
generalizability by merging checkpoints from varied, optimized mixtures.
Evaluated on the Massive Text Embedding Benchmark (MTEB) across multilingual,
English, and code domains, EmbeddingGemma (300M) achieves state-of-the-art
results. Notably, it outperforms prior top models, both proprietary and open,
with fewer than 500M parameters, and provides performance comparable to models
double its size, offering an exceptional performance-to-cost ratio. Remarkably,
this lead persists when quantizing model weights or truncating embedding
outputs. This makes EmbeddingGemma particularly well-suited for low-latency and
high-throughput use cases such as on-device applications. We provide ablation
studies exploring our key design choices. We release EmbeddingGemma to the
community to promote further research.