Технический отчет SAIL-Embedding: Омни-модальная модель встраивания Foundation
SAIL-Embedding Technical Report: Omni-modal Embedding Foundation Model
October 14, 2025
Авторы: Lin Lin, Jiefeng Long, Zhihe Wan, Yuchi Wang, Dingkang Yang, Shuang Yang, Yueyang Yao, Xu Chen, Zirui Guo, Shengqiang Li, Weiran Li, Hanyu Li, Yaling Mou, Yan Qiu, Haiyang Yu, Xiao Liang, Hongsheng Li, Chao Feng
cs.AI
Аннотация
Мультимодальные модели встраивания направлены на создание информативных унифицированных представлений, которые расширяют возможности для решения разнообразных кросс-модальных задач. Несмотря на значительные достижения в эволюции от архитектур с двойными башнями на основе CLIP до крупных моделей, объединяющих зрение и язык, предыдущие работы по-прежнему сталкиваются с неизбежными вызовами в реальных приложениях и бизнес-сценариях, такими как ограниченная поддержка модальностей, нестабильные механизмы обучения и разрывы в промышленных доменах. В данной работе мы представляем SAIL-Embedding — омни-модальную модель встраивания, которая решает эти проблемы за счет специализированных стратегий обучения и архитектурного дизайна. В процессе оптимизации мы предлагаем многоэтапную схему обучения для повышения многогранной эффективности обучения представлений. В частности, контент-ориентированное прогрессивное обучение направлено на улучшение адаптируемости модели к разнообразным задачам и овладение расширенными кросс-модальными навыками. Обучение с усилением рекомендаций, учитывающее коллаборацию, дополнительно адаптирует мультимодальные представления для сценариев рекомендаций, извлекая знания из встраиваний последовательностей в элементы и идентификаторов в элементы, одновременно анализируя исторические интересы пользователей. Параллельно мы разрабатываем стохастическую специализацию и сопоставление паттернов на основе данных для повышения гибкости и обобщаемости обучения модели. Экспериментальные результаты показывают, что SAIL-Embedding достигает наилучших показателей (SOTA) по сравнению с другими методами в различных задачах поиска. В онлайн-экспериментах в различных реальных сценариях, интегрированных с нашей моделью, мы наблюдаем значительное увеличение показателя Lifetime (LT), который является ключевым индикатором для опыта рекомендаций. Например, модель демонстрирует прирост 7-дневного LT на +0,158% и 14-дневного LT на +0,144% в сценарии Douyin-Selected. Для модели ранжирования ленты Douyin признаки сопоставления, созданные SAIL-Embedding, обеспечивают прирост AUC на +0,08%.
English
Multimodal embedding models aim to yield informative unified representations
that empower diverse cross-modal tasks. Despite promising developments in the
evolution from CLIP-based dual-tower architectures to large vision-language
models, prior works still face unavoidable challenges in real-world
applications and business scenarios, such as the limited modality support,
unstable training mechanisms, and industrial domain gaps. In this work, we
introduce SAIL-Embedding, an omni-modal embedding foundation model that
addresses these issues through tailored training strategies and architectural
design. In the optimization procedure, we propose a multi-stage training scheme
to boost the multifaceted effectiveness of representation learning.
Specifically, the content-aware progressive training aims to enhance the
model's adaptability to diverse downstream tasks and master enriched
cross-modal proficiency. The collaboration-aware recommendation enhancement
training further adapts multimodal representations for recommendation scenarios
by distilling knowledge from sequence-to-item and ID-to-item embeddings while
mining user historical interests. Concurrently, we develop the stochastic
specialization and dataset-driven pattern matching to strengthen model training
flexibility and generalizability. Experimental results show that SAIL-Embedding
achieves SOTA performance compared to other methods in different retrieval
tasks. In online experiments across various real-world scenarios integrated
with our model, we observe a significant increase in Lifetime (LT), which is a
crucial indicator for the recommendation experience. For instance, the model
delivers the 7-day LT gain of +0.158% and the 14-day LT gain of +0.144% in the
Douyin-Selected scenario. For the Douyin feed rank model, the match features
produced by SAIL-Embedding yield a +0.08% AUC gain.