Обучение небольшим выборкам для встраивания текста
Making Text Embedders Few-Shot Learners
September 24, 2024
Авторы: Chaofan Li, MingHao Qin, Shitao Xiao, Jianlyu Chen, Kun Luo, Yingxia Shao, Defu Lian, Zheng Liu
cs.AI
Аннотация
Большие языковые модели (LLM) с архитектурой только декодера демонстрируют замечательные возможности обучения в контексте (ICL). Эта особенность позволяет им эффективно обрабатывать как знакомые, так и новые задачи, используя примеры, предоставленные в рамках их входного контекста. Признав потенциал этой возможности, мы предлагаем использовать функцию ICL в LLM для улучшения процесса генерации встраивания текста. Для этого мы представляем новую модель bge-en-icl, которая использует примеры с небольшим числом обучающих шагов для создания качественных встраиваний текста. Наш подход интегрирует примеры, связанные с задачей, непосредственно на стороне запроса, что приводит к значительным улучшениям по различным задачам. Кроме того, мы исследовали способы эффективного использования LLM в качестве моделей встраивания, включая различные механизмы внимания, методы пулинга и т. д. Наши результаты показывают, что сохранение исходной структуры часто дает лучшие результаты, подчеркивая, что простота - залог успеха. Экспериментальные результаты на бенчмарках MTEB и AIR-Bench демонстрируют, что наш подход устанавливает новые лучшие показатели (SOTA). Наша модель, код и набор данных доступны бесплатно на https://github.com/FlagOpen/FlagEmbedding .
English
Large language models (LLMs) with decoder-only architectures demonstrate
remarkable in-context learning (ICL) capabilities. This feature enables them to
effectively handle both familiar and novel tasks by utilizing examples provided
within their input context. Recognizing the potential of this capability, we
propose leveraging the ICL feature in LLMs to enhance the process of text
embedding generation. To this end, we introduce a novel model bge-en-icl, which
employs few-shot examples to produce high-quality text embeddings. Our approach
integrates task-related examples directly into the query side, resulting in
significant improvements across various tasks. Additionally, we have
investigated how to effectively utilize LLMs as embedding models, including
various attention mechanisms, pooling methods, etc. Our findings suggest that
retaining the original framework often yields the best results, underscoring
that simplicity is best. Experimental results on the MTEB and AIR-Bench
benchmarks demonstrate that our approach sets new state-of-the-art (SOTA)
performance. Our model, code and dataset are freely available at
https://github.com/FlagOpen/FlagEmbedding .Summary
AI-Generated Summary