F2LLM-v2: Инклюзивные, производительные и эффективные эмбеддинги для многоязычного мира
F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World
March 19, 2026
Авторы: Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang
cs.AI
Аннотация
Мы представляем F2LLM-v2 — новое семейство многоязычных моделей эмбеддингов общего назначения в 8 вариантах размером от 80 млн до 14 млрд параметров. Обученные на вновь созданном композитном наборе из 60 миллионов публично доступных высококачественных образцов данных, модели F2LLM-v2 поддерживают более 200 языков, с особым акцентом на ранее недостаточно охваченные языки со средними и малыми ресурсами. Благодаря интеграции двухэтапного пайплайна обучения эмбеддингов на основе LLM с методами матрешечного обучения, прунинга моделей и дистилляции знаний, мы представляем модели, которые значительно эффективнее предыдущих LLM-эмбеддингов при сохранении конкурентоспособной производительности. Масштабные оценки подтверждают, что F2LLM-v2-14B занимает первое место в 11 бенчмарках MTEB, в то время как меньшие модели семейства также устанавливают новый state-of-the-art для приложений с ограниченными ресурсами. Для содействия исследованиям в области моделей эмбеддингов с открытым исходным кодом мы публикуем все модели, данные, код и промежуточные чекпойнты.
English
We present F2LLM-v2, a new family of general-purpose, multilingual embedding models in 8 distinct sizes ranging from 80M to 14B. Trained on a newly curated composite of 60 million publicly available high-quality data samples, F2LLM-v2 supports more than 200 languages, with a particular emphasis on previously underserved mid- and low-resource languages. By integrating a two-stage LLM-based embedding training pipeline with matryoshka learning, model pruning, and knowledge distillation techniques, we present models that are far more efficient than previous LLM-based embedding models while retaining competitive performances. Extensive evaluations confirm that F2LLM-v2-14B ranks first on 11 MTEB benchmarks, while the smaller models in the family also set a new state of the art for resource-constrained applications. To facilitate open-source embedding model research, we release all models, data, code, and intermediate checkpoints.