ChatPaper.aiChatPaper

Технический отчет F2LLM: Достижение уровня современных встраиваний с использованием 6 миллионов открытых данных

F2LLM Technical Report: Matching SOTA Embedding Performance with 6 Million Open-Source Data

October 2, 2025
Авторы: Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang
cs.AI

Аннотация

Мы представляем F2LLM — Foundation to Feature Large Language Models, набор современных моделей эмбеддингов трех размеров: 0.6B, 1.7B и 4B. В отличие от предыдущих моделей эмбеддингов, занимающих лидирующие позиции, которые требуют масштабного контрастивного предобучения, сложных обучающих конвейеров и дорогостоящих синтетических данных для обучения, F2LLM напрямую дообучается на базовых моделях с использованием 6 миллионов кортежей "запрос-документ-негатив", отобранных из открытых, несинтетических наборов данных. Это позволяет достичь оптимального баланса между стоимостью обучения, размером модели и качеством эмбеддингов. На лидерборде MTEB для английского языка F2LLM-4B занимает 2-е место среди моделей с примерно 4 миллиардами параметров и 7-е место в общем рейтинге, в то время как F2LLM-1.7B занимает 1-е место среди моделей в диапазоне 1–2 миллиарда параметров. Для содействия будущим исследованиям в этой области мы публикуем модели, обучающий набор данных и код, позиционируя F2LLM как надежный, воспроизводимый и экономически выгодный базовый вариант для будущих работ.
English
We introduce F2LLM - Foundation to Feature Large Language Models, a suite of state-of-the-art embedding models in three sizes: 0.6B, 1.7B, and 4B. Unlike previous top-ranking embedding models that require massive contrastive pretraining, sophisticated training pipelines, and costly synthetic training data, F2LLM is directly finetuned from foundation models on 6 million query-document-negative tuples curated from open-source, non-synthetic datasets, striking a strong balance between training cost, model size, and embedding performance. On the MTEB English leaderboard, F2LLM-4B ranks 2nd among models with approximately 4B parameters and 7th overall, while F2LLM-1.7B ranks 1st among models in the 1B-2B size range. To facilitate future research in the field, we release the models, training dataset, and code, positioning F2LLM as a strong, reproducible, and budget-friendly baseline for future works.
PDF412October 3, 2025