EmbeddingGemma: 강력하면서도 가벼운 텍스트 표현 모델
EmbeddingGemma: Powerful and Lightweight Text Representations
September 24, 2025
저자: Henrique Schechter Vera, Sahil Dua, Biao Zhang, Daniel Salz, Ryan Mullins, Sindhu Raghuram Panyam, Sara Smoot, Iftekhar Naim, Joe Zou, Feiyang Chen, Daniel Cer, Alice Lisak, Min Choi, Lucas Gonzalez, Omar Sanseviero, Glenn Cameron, Ian Ballantyne, Kat Black, Kaifeng Chen, Weiyi Wang, Zhe Li, Gus Martins, Jinhyuk Lee, Mark Sherwood, Juyeong Ji, Renjie Wu, Jingxiao Zheng, Jyotinder Singh, Abheesht Sharma, Divya Sreepat, Aashi Jain, Adham Elarabawy, AJ Co, Andreas Doumanoglou, Babak Samari, Ben Hora, Brian Potetz, Dahun Kim, Enrique Alfonseca, Fedor Moiseev, Feng Han, Frank Palma Gomez, Gustavo Hernández Ábrego, Hesen Zhang, Hui Hui, Jay Han, Karan Gill, Ke Chen, Koert Chen, Madhuri Shanbhogue, Michael Boratko, Paul Suganthan, Sai Meher Karthik Duddu, Sandeep Mariserla, Setareh Ariafar, Shanfeng Zhang, Shijie Zhang, Simon Baumgartner, Sonam Goenka, Steve Qiu, Tanmaya Dabral, Trevor Walker, Vikram Rao, Waleed Khawaja, Wenlei Zhou, Xiaoqi Ren, Ye Xia, Yichang Chen, Yi-Ting Chen, Zhe Dong, Zhongli Ding, Francesco Visin, Gaël Liu, Jiageng Zhang, Kathleen Kenealy, Michelle Casbon, Ravin Kumar, Thomas Mesnard, Zach Gleicher, Cormac Brick, Olivier Lacombe, Adam Roberts, Yunhsuan Sung, Raphael Hoffmann, Tris Warkentin, Armand Joulin, Tom Duerig, Mojtaba Seyedhosseini
cs.AI
초록
우리는 Gemma 3 언어 모델 패밀리를 기반으로 한 새로운 경량 오픈 텍스트 임베딩 모델인 EmbeddingGemma를 소개합니다. 우리의 혁신적인 학습 방법론은 인코더-디코더 초기화와 기하학적 임베딩 증류를 통해 더 큰 모델로부터 지식을 전략적으로 포착합니다. 모델의 견고성과 표현력을 향상시키기 위해 확산 정규화 기법을 사용하고, 다양한 최적화된 혼합체에서 체크포인트를 병합함으로써 일반화 능력을 보장합니다. 다국어, 영어, 코드 도메인에 걸친 Massive Text Embedding Benchmark(MTEB)에서 평가된 EmbeddingGemma(300M)는 최첨단 결과를 달성했습니다. 특히, 500M 미만의 파라미터로 사유 및 오픈 소스 모델을 모두 능가하며, 크기가 두 배인 모델과 비슷한 성능을 제공하여 탁월한 성능 대비 비용 효율성을 보여줍니다. 이 우수성은 모델 가중치 양자화나 임베딩 출력 단축 시에도 유지되어, EmbeddingGemma는 저지연 및 고처리량 사용 사례(예: 온디바이스 애플리케이션)에 특히 적합합니다. 우리는 주요 설계 선택을 탐구하는 절제 연구를 제공하며, EmbeddingGemma를 커뮤니티에 공개하여 추가 연구를 촉진합니다.
English
We introduce EmbeddingGemma, a new lightweight, open text embedding model
based on the Gemma 3 language model family. Our innovative training recipe
strategically captures knowledge from larger models via encoder-decoder
initialization and geometric embedding distillation. We improve model
robustness and expressiveness with a spread-out regularizer, and ensure
generalizability by merging checkpoints from varied, optimized mixtures.
Evaluated on the Massive Text Embedding Benchmark (MTEB) across multilingual,
English, and code domains, EmbeddingGemma (300M) achieves state-of-the-art
results. Notably, it outperforms prior top models, both proprietary and open,
with fewer than 500M parameters, and provides performance comparable to models
double its size, offering an exceptional performance-to-cost ratio. Remarkably,
this lead persists when quantizing model weights or truncating embedding
outputs. This makes EmbeddingGemma particularly well-suited for low-latency and
high-throughput use cases such as on-device applications. We provide ablation
studies exploring our key design choices. We release EmbeddingGemma to the
community to promote further research.