Rapporto Tecnico SAIL-Embedding: Modello Fondamentale di Embedding Omni-modale

Abstract

I modelli di embedding multimodali mirano a produrre rappresentazioni unificate informative che potenziano diverse attività cross-modali. Nonostante i promettenti sviluppi nell'evoluzione dalle architetture dual-tower basate su CLIP ai grandi modelli visione-linguaggio, i lavori precedenti affrontano ancora sfide inevitabili nelle applicazioni reali e negli scenari aziendali, come il supporto limitato alle modalità, meccanismi di addestramento instabili e divari di dominio industriale. In questo lavoro, introduciamo SAIL-Embedding, un modello di embedding omni-modale che affronta questi problemi attraverso strategie di addestramento mirate e un design architetturale specifico. Nel processo di ottimizzazione, proponiamo uno schema di addestramento multi-fase per potenziare l'efficacia multifaccettata dell'apprendimento delle rappresentazioni. Nello specifico, l'addestramento progressivo content-aware mira a migliorare l'adattabilità del modello a diverse attività downstream e a padroneggiare una competenza cross-modale arricchita. L'addestramento di potenziamento recommendation-aware adatta ulteriormente le rappresentazioni multimodali per scenari di raccomandazione distillando conoscenza dagli embedding sequenza-a-item e ID-a-item, mentre esplora gli interessi storici degli utenti. Parallelamente, sviluppiamo la specializzazione stocastica e il pattern matching guidato dai dataset per rafforzare la flessibilità e la generalizzabilità dell'addestramento del modello. I risultati sperimentali mostrano che SAIL-Embedding raggiunge prestazioni SOTA rispetto ad altri metodi in diverse attività di retrieval. Negli esperimenti online attraverso vari scenari reali integrati con il nostro modello, osserviamo un aumento significativo del Lifetime (LT), un indicatore cruciale per l'esperienza di raccomandazione. Ad esempio, il modello fornisce un guadagno di LT a 7 giorni di +0,158% e un guadagno di LT a 14 giorni di +0,144% nello scenario Douyin-Selected. Per il modello di ranking del feed di Douyin, le funzionalità di matching prodotte da SAIL-Embedding generano un guadagno di AUC di +0,08%.

English

Multimodal embedding models aim to yield informative unified representations that empower diverse cross-modal tasks. Despite promising developments in the evolution from CLIP-based dual-tower architectures to large vision-language models, prior works still face unavoidable challenges in real-world applications and business scenarios, such as the limited modality support, unstable training mechanisms, and industrial domain gaps. In this work, we introduce SAIL-Embedding, an omni-modal embedding foundation model that addresses these issues through tailored training strategies and architectural design. In the optimization procedure, we propose a multi-stage training scheme to boost the multifaceted effectiveness of representation learning. Specifically, the content-aware progressive training aims to enhance the model's adaptability to diverse downstream tasks and master enriched cross-modal proficiency. The collaboration-aware recommendation enhancement training further adapts multimodal representations for recommendation scenarios by distilling knowledge from sequence-to-item and ID-to-item embeddings while mining user historical interests. Concurrently, we develop the stochastic specialization and dataset-driven pattern matching to strengthen model training flexibility and generalizability. Experimental results show that SAIL-Embedding achieves SOTA performance compared to other methods in different retrieval tasks. In online experiments across various real-world scenarios integrated with our model, we observe a significant increase in Lifetime (LT), which is a crucial indicator for the recommendation experience. For instance, the model delivers the 7-day LT gain of +0.158% and the 14-day LT gain of +0.144% in the Douyin-Selected scenario. For the Douyin feed rank model, the match features produced by SAIL-Embedding yield a +0.08% AUC gain.

Rapporto Tecnico SAIL-Embedding: Modello Fondamentale di Embedding Omni-modale

SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model

Abstract

Support