Gemini Embedding 2: Ein natives multimodales Einbettungsmodell von Gemini

Zusammenfassung

Wir stellen Gemini Embedding 2 vor, ein natives multimodales Embedding-Modell, das die Einbettung von Video-, Audio-, Bild- und Textmodalitäten in einen einheitlichen Repräsentationsraum ermöglicht. Wir nutzen die multimodalen Fähigkeiten von Gemini, um Embeddings für beliebige Kombinationen von ineinander verschachtelten Eingaben über all diese Modalitäten hinweg zu erzeugen, die sich über eine Vielzahl von Aufgaben hinweg gut verallgemeinern lassen. Durch die Anwendung von kontrastivem Lernen in großem Maßstab in einem mehrstufigen Multi-Task-Trainingssetup erzielen wir modernste Leistungen bei wichtigen Embedding-Benchmarks, darunter unimodales, crossmodales und multimodales Retrieval über ein breites Spektrum von Aufgaben hinweg. Wir zeigen, dass unser Embedding-Modell über verschiedene Aufgaben hinweg eine starke Leistung erbringt (mit einem Wert von 62,9 R@1 auf MSCOCO, 68,8 NDCG@10 auf Vatex, 69,9 auf MTEB multilingual und 84,0 auf MTEB Code) und die Leistung spezialisierter Modelle übertrifft. Diese einheitlichen Fähigkeiten machen Gemini Embedding 2 zu einem vielversprechenden Kandidaten für nachgelagerte Anwendungsfälle wie RAG, Empfehlungen und Suche. Darüber hinaus etabliert seine robuste Zero-Shot-Leistung in verschiedenen Bereichen – von Astronomie und Biowissenschaften bis hin zu bildender Kunst und Kochkunst – es als eine hochzuverlässige, sofort einsetzbare Repräsentation selbst für spezialisierte Domänen.

English

We introduce Gemini Embedding 2, a native multimodal embedding model that allows embedding video, audio, image, and text modalities in a unified representation space. We leverage the multimodal capabilities of Gemini to produce embeddings for arbitrary combinations of interleaved inputs across all these modalities that generalize well across a wide variety of tasks. Applying large-scale contrastive learning in a multi-task multi-stage training setup, we achieve state-of-the-art performance on key embedding benchmarks including unimodal, cross-modal, and multimodal retrieval spanning a diverse set of tasks. We show that our embedding model demonstrates strong performance (with a score of 62.9 R@1 on MSCOCO, 68.8 NDCG@10 on Vatex, 69.9 on MTEB multilingual and 84.0 on MTEB Code) across a variety of tasks surpassing the performance of specialized models. These unified capabilities make Gemini Embedding 2 a promising candidate for downstream use cases such as RAG, recommendation and search. Furthermore, its robust zero-shot performance across distinct fields - from astronomy and bioscience to fine arts and the culinary arts - establishes it as a highly reliable, out-of-the-box representation even for specialized domains.