Ihr Mixture-of-Experts LLM ist heimlich ein Einbettungsmodell kostenlos.
Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free
October 14, 2024
Autoren: Ziyue Li, Tianyi Zhou
cs.AI
Zusammenfassung
Obwohl große Sprachmodelle (LLMs) bei Generierungsaufgaben hervorragende Leistungen erbringen, begrenzt ihre ausschließliche Decoder-Architektur oft ihr Potenzial als Einbettungsmodelle, wenn keine weitere Feinabstimmung der Repräsentation erfolgt. Widerspricht dies ihrem Anspruch als Generalisten? Um diese Frage zu beantworten, werfen wir einen genaueren Blick auf Mixture-of-Experts (MoE) LLMs. Unsere Studie zeigt, dass die Experten-Routen in MoE LLMs als Einbettungsmodell von der Stange dienen können und vielversprechende Leistungen bei einer vielfältigen Klasse von auf Einbettungen fokussierten Aufgaben erbringen, ohne dass eine Feinabstimmung erforderlich ist. Darüber hinaus zeigt unsere umfangreiche Analyse, dass die MoE-Routungsgewichte (RW) ergänzend zum versteckten Zustand (HS) von LLMs, einer weit verbreiteten Einbettung, sind. Im Vergleich zu HS stellen wir fest, dass RW robuster gegenüber der Wahl von Anregungen ist und sich auf semantische Hochlevelelemente konzentriert. Angeregt durch die Analyse schlagen wir MoEE vor, das RW und HS kombiniert und eine bessere Leistung erzielt als bei der Verwendung jeder Komponente separat. Unsere Erkundung ihrer Kombination und Anregungsstrategie bringt mehrere neue Erkenntnisse ans Licht, z.B. dass eine gewichtete Summe von RW- und HS-Ähnlichkeiten die Ähnlichkeit ihrer Konkatenation übertrifft. Unsere Experimente werden an 6 Einbettungsaufgaben mit 20 Datensätzen aus dem Massive Text Embedding Benchmark (MTEB) durchgeführt. Die Ergebnisse zeigen die signifikante Verbesserung, die MoEE für LLM-basierte Einbettungen ohne weitere Feinabstimmung mit sich bringt.
English
While large language models (LLMs) excel on generation tasks, their
decoder-only architecture often limits their potential as embedding models if
no further representation finetuning is applied. Does this contradict their
claim of generalists? To answer the question, we take a closer look at
Mixture-of-Experts (MoE) LLMs. Our study shows that the expert routers in MoE
LLMs can serve as an off-the-shelf embedding model with promising performance
on a diverse class of embedding-focused tasks, without requiring any
finetuning. Moreover, our extensive analysis shows that the MoE routing weights
(RW) is complementary to the hidden state (HS) of LLMs, a widely-used
embedding. Compared to HS, we find that RW is more robust to the choice of
prompts and focuses on high-level semantics. Motivated by the analysis, we
propose MoEE combining RW and HS, which achieves better performance than using
either separately. Our exploration of their combination and prompting strategy
shed several novel insights, e.g., a weighted sum of RW and HS similarities
outperforms the similarity on their concatenation. Our experiments are
conducted on 6 embedding tasks with 20 datasets from the Massive Text Embedding
Benchmark (MTEB). The results demonstrate the significant improvement brought
by MoEE to LLM-based embedding without further finetuning.Summary
AI-Generated Summary