Ihr Mixture-of-Experts LLM ist heimlich ein Einbettungsmodell kostenlos.Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free
Obwohl große Sprachmodelle (LLMs) bei Generierungsaufgaben hervorragende Leistungen erbringen, begrenzt ihre ausschließliche Decoder-Architektur oft ihr Potenzial als Einbettungsmodelle, wenn keine weitere Feinabstimmung der Repräsentation erfolgt. Widerspricht dies ihrem Anspruch als Generalisten? Um diese Frage zu beantworten, werfen wir einen genaueren Blick auf Mixture-of-Experts (MoE) LLMs. Unsere Studie zeigt, dass die Experten-Routen in MoE LLMs als Einbettungsmodell von der Stange dienen können und vielversprechende Leistungen bei einer vielfältigen Klasse von auf Einbettungen fokussierten Aufgaben erbringen, ohne dass eine Feinabstimmung erforderlich ist. Darüber hinaus zeigt unsere umfangreiche Analyse, dass die MoE-Routungsgewichte (RW) ergänzend zum versteckten Zustand (HS) von LLMs, einer weit verbreiteten Einbettung, sind. Im Vergleich zu HS stellen wir fest, dass RW robuster gegenüber der Wahl von Anregungen ist und sich auf semantische Hochlevelelemente konzentriert. Angeregt durch die Analyse schlagen wir MoEE vor, das RW und HS kombiniert und eine bessere Leistung erzielt als bei der Verwendung jeder Komponente separat. Unsere Erkundung ihrer Kombination und Anregungsstrategie bringt mehrere neue Erkenntnisse ans Licht, z.B. dass eine gewichtete Summe von RW- und HS-Ähnlichkeiten die Ähnlichkeit ihrer Konkatenation übertrifft. Unsere Experimente werden an 6 Einbettungsaufgaben mit 20 Datensätzen aus dem Massive Text Embedding Benchmark (MTEB) durchgeführt. Die Ergebnisse zeigen die signifikante Verbesserung, die MoEE für LLM-basierte Einbettungen ohne weitere Feinabstimmung mit sich bringt.