Rapporto Tecnico SAIL-Embedding: Modello Fondamentale di Embedding Omni-modale
SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model
October 14, 2025
Autori: Lin Lin, Jiefeng Long, Zhihe Wan, Yuchi Wang, Dingkang Yang, Shuang Yang, Yueyang Yao, Xu Chen, Zirui Guo, Shengqiang Li, Weiran Li, Hanyu Li, Yaling Mou, Yan Qiu, Haiyang Yu, Xiao Liang, Hongsheng Li, Chao Feng
cs.AI
Abstract
I modelli di embedding multimodali mirano a produrre rappresentazioni unificate informative che potenziano diverse attività cross-modali. Nonostante i promettenti sviluppi nell'evoluzione dalle architetture dual-tower basate su CLIP ai grandi modelli visione-linguaggio, i lavori precedenti affrontano ancora sfide inevitabili nelle applicazioni reali e negli scenari aziendali, come il supporto limitato alle modalità, meccanismi di addestramento instabili e divari di dominio industriale. In questo lavoro, introduciamo SAIL-Embedding, un modello di embedding omni-modale che affronta questi problemi attraverso strategie di addestramento mirate e un design architetturale specifico. Nel processo di ottimizzazione, proponiamo uno schema di addestramento multi-fase per potenziare l'efficacia multifaccettata dell'apprendimento delle rappresentazioni. Nello specifico, l'addestramento progressivo content-aware mira a migliorare l'adattabilità del modello a diverse attività downstream e a padroneggiare una competenza cross-modale arricchita. L'addestramento di potenziamento recommendation-aware adatta ulteriormente le rappresentazioni multimodali per scenari di raccomandazione distillando conoscenza dagli embedding sequenza-a-item e ID-a-item, mentre esplora gli interessi storici degli utenti. Parallelamente, sviluppiamo la specializzazione stocastica e il pattern matching guidato dai dataset per rafforzare la flessibilità e la generalizzabilità dell'addestramento del modello. I risultati sperimentali mostrano che SAIL-Embedding raggiunge prestazioni SOTA rispetto ad altri metodi in diverse attività di retrieval. Negli esperimenti online attraverso vari scenari reali integrati con il nostro modello, osserviamo un aumento significativo del Lifetime (LT), un indicatore cruciale per l'esperienza di raccomandazione. Ad esempio, il modello fornisce un guadagno di LT a 7 giorni di +0,158% e un guadagno di LT a 14 giorni di +0,144% nello scenario Douyin-Selected. Per il modello di ranking del feed di Douyin, le funzionalità di matching prodotte da SAIL-Embedding generano un guadagno di AUC di +0,08%.
English
Multimodal embedding models aim to yield informative unified representations
that empower diverse cross-modal tasks. Despite promising developments in the
evolution from CLIP-based dual-tower architectures to large vision-language
models, prior works still face unavoidable challenges in real-world
applications and business scenarios, such as the limited modality support,
unstable training mechanisms, and industrial domain gaps. In this work, we
introduce SAIL-Embedding, an omni-modal embedding foundation model that
addresses these issues through tailored training strategies and architectural
design. In the optimization procedure, we propose a multi-stage training scheme
to boost the multifaceted effectiveness of representation learning.
Specifically, the content-aware progressive training aims to enhance the
model's adaptability to diverse downstream tasks and master enriched
cross-modal proficiency. The collaboration-aware recommendation enhancement
training further adapts multimodal representations for recommendation scenarios
by distilling knowledge from sequence-to-item and ID-to-item embeddings while
mining user historical interests. Concurrently, we develop the stochastic
specialization and dataset-driven pattern matching to strengthen model training
flexibility and generalizability. Experimental results show that SAIL-Embedding
achieves SOTA performance compared to other methods in different retrieval
tasks. In online experiments across various real-world scenarios integrated
with our model, we observe a significant increase in Lifetime (LT), which is a
crucial indicator for the recommendation experience. For instance, the model
delivers the 7-day LT gain of +0.158% and the 14-day LT gain of +0.144% in the
Douyin-Selected scenario. For the Douyin feed rank model, the match features
produced by SAIL-Embedding yield a +0.08% AUC gain.