Ваша модель Mixture-of-Experts LLM на самом деле является моделью встраивания, доступной бесплатно.Your Mixture-of-Experts LLM Is Secretly an Embedding Model For Free
Хотя большие языковые модели (LLM) блестяще справляются с задачами генерации, их архитектура только декодера часто ограничивает их потенциал как моделей встраивания, если не применяется дополнительное донастройка представления. Противоречит ли это их утверждению о общих способностях? Чтобы ответить на этот вопрос, мы внимательно рассмотрим модели LLM смеси экспертов (MoE). Наше исследование показывает, что маршрутизаторы экспертов в моделях MoE LLM могут служить моделью встраивания «из коробки» с многообещающей производительностью на разнообразных классах задач, сосредоточенных на встраивании, без необходимости какой-либо донастройки. Более того, наш обширный анализ показывает, что веса маршрутизации MoE (RW) дополняют скрытое состояние (HS) LLM, широко используемое встраивание. По сравнению с HS, мы обнаружили, что RW более устойчив к выбору подсказок и фокусируется на семантике высокого уровня. Под влиянием анализа мы предлагаем MoEE, объединяющий RW и HS, что дает лучшую производительность, чем использование их по отдельности. Наше исследование их комбинации и стратегии подсказок привели к нескольким новым идеям, например, взвешенная сумма сходств RW и HS превосходит сходство их конкатенации. Наши эксперименты проводились на 6 задачах встраивания с 20 наборами данных из Бенчмарка массового текстового встраивания (MTEB). Результаты демонстрируют значительное улучшение, достигнутое MoEE для встраивания на основе LLM без дополнительной донастройки.