Votre Mixture-of-Experts LLM est secrĂštement un modĂšle d'incorporation gratuit.Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free
Alors que les grands modĂšles de langage (LLM) excellent dans les tĂąches de gĂ©nĂ©ration, leur architecture basĂ©e uniquement sur le dĂ©codeur limite souvent leur potentiel en tant que modĂšles d'incorporation s'ils ne sont pas soumis Ă un affinage de la reprĂ©sentation supplĂ©mentaire. Cela contredit-il leur prĂ©tention Ă ĂȘtre des gĂ©nĂ©ralistes ? Pour rĂ©pondre Ă cette question, nous examinons de plus prĂšs les LLM Ă MĂ©lange d'Experts (MoE). Notre Ă©tude montre que les routeurs d'experts dans les LLM Ă MoE peuvent servir de modĂšle d'incorporation prĂȘt Ă l'emploi avec des performances prometteuses sur une classe diversifiĂ©e de tĂąches axĂ©es sur l'incorporation, sans nĂ©cessiter de quelconque affinage. De plus, notre analyse approfondie montre que les poids de routage MoE (RW) sont complĂ©mentaires Ă l'Ă©tat cachĂ© (HS) des LLM, une incorporation largement utilisĂ©e. Par rapport Ă HS, nous constatons que RW est plus robuste au choix des invitations et se concentre sur la sĂ©mantique de haut niveau. MotivĂ©s par cette analyse, nous proposons MoEE combinant RW et HS, ce qui permet d'obtenir de meilleures performances que lorsqu'ils sont utilisĂ©s sĂ©parĂ©ment. Notre exploration de leur combinaison et de la stratĂ©gie d'invitation apporte plusieurs nouvelles perspectives, par exemple, une somme pondĂ©rĂ©e des similaritĂ©s RW et HS surpasse la similaritĂ© de leur concatĂ©nation. Nos expĂ©riences sont menĂ©es sur 6 tĂąches d'incorporation avec 20 ensembles de donnĂ©es provenant du Benchmark d'incorporation de texte massif (MTEB). Les rĂ©sultats dĂ©montrent l'amĂ©lioration significative apportĂ©e par MoEE Ă l'incorporation basĂ©e sur les LLM sans nĂ©cessiter d'affinage supplĂ©mentaire.