ChatPaper.aiChatPaper

Обучение небольшим выборкам для встраивания текста

Making Text Embedders Few-Shot Learners

September 24, 2024
Авторы: Chaofan Li, MingHao Qin, Shitao Xiao, Jianlyu Chen, Kun Luo, Yingxia Shao, Defu Lian, Zheng Liu
cs.AI

Аннотация

Большие языковые модели (LLM) с архитектурой только декодера демонстрируют замечательные возможности обучения в контексте (ICL). Эта особенность позволяет им эффективно обрабатывать как знакомые, так и новые задачи, используя примеры, предоставленные в рамках их входного контекста. Признав потенциал этой возможности, мы предлагаем использовать функцию ICL в LLM для улучшения процесса генерации встраивания текста. Для этого мы представляем новую модель bge-en-icl, которая использует примеры с небольшим числом обучающих шагов для создания качественных встраиваний текста. Наш подход интегрирует примеры, связанные с задачей, непосредственно на стороне запроса, что приводит к значительным улучшениям по различным задачам. Кроме того, мы исследовали способы эффективного использования LLM в качестве моделей встраивания, включая различные механизмы внимания, методы пулинга и т. д. Наши результаты показывают, что сохранение исходной структуры часто дает лучшие результаты, подчеркивая, что простота - залог успеха. Экспериментальные результаты на бенчмарках MTEB и AIR-Bench демонстрируют, что наш подход устанавливает новые лучшие показатели (SOTA). Наша модель, код и набор данных доступны бесплатно на https://github.com/FlagOpen/FlagEmbedding .
English
Large language models (LLMs) with decoder-only architectures demonstrate remarkable in-context learning (ICL) capabilities. This feature enables them to effectively handle both familiar and novel tasks by utilizing examples provided within their input context. Recognizing the potential of this capability, we propose leveraging the ICL feature in LLMs to enhance the process of text embedding generation. To this end, we introduce a novel model bge-en-icl, which employs few-shot examples to produce high-quality text embeddings. Our approach integrates task-related examples directly into the query side, resulting in significant improvements across various tasks. Additionally, we have investigated how to effectively utilize LLMs as embedding models, including various attention mechanisms, pooling methods, etc. Our findings suggest that retaining the original framework often yields the best results, underscoring that simplicity is best. Experimental results on the MTEB and AIR-Bench benchmarks demonstrate that our approach sets new state-of-the-art (SOTA) performance. Our model, code and dataset are freely available at https://github.com/FlagOpen/FlagEmbedding .

Summary

AI-Generated Summary

PDF312November 16, 2024