ChatPaper.aiChatPaper

Création d'incrustations de texte pour l'apprentissage à quelques exemples.

Making Text Embedders Few-Shot Learners

September 24, 2024
Auteurs: Chaofan Li, MingHao Qin, Shitao Xiao, Jianlyu Chen, Kun Luo, Yingxia Shao, Defu Lian, Zheng Liu
cs.AI

Résumé

Les grands modèles de langage (LLM) avec des architectures à décodeur seul démontrent des capacités remarquables d'apprentissage en contexte (ICL). Cette caractéristique leur permet de gérer efficacement à la fois des tâches familières et nouvelles en utilisant des exemples fournis dans leur contexte d'entrée. Reconnaissant le potentiel de cette capacité, nous proposons d'exploiter la fonction ICL dans les LLM pour améliorer le processus de génération d'encodage de texte. À cette fin, nous introduisons un modèle novateur bge-en-icl, qui utilise des exemples à quelques coups pour produire des encodages de texte de haute qualité. Notre approche intègre directement des exemples liés à la tâche du côté de la requête, ce qui se traduit par des améliorations significatives sur diverses tâches. De plus, nous avons étudié comment utiliser efficacement les LLM en tant que modèles d'encodage, y compris divers mécanismes d'attention, méthodes de regroupement, etc. Nos résultats suggèrent que le maintien du cadre original donne souvent les meilleurs résultats, soulignant que la simplicité est préférable. Les résultats expérimentaux sur les référentiels MTEB et AIR-Bench montrent que notre approche établit de nouvelles performances de pointe (SOTA). Notre modèle, code et ensemble de données sont disponibles gratuitement sur https://github.com/FlagOpen/FlagEmbedding.
English
Large language models (LLMs) with decoder-only architectures demonstrate remarkable in-context learning (ICL) capabilities. This feature enables them to effectively handle both familiar and novel tasks by utilizing examples provided within their input context. Recognizing the potential of this capability, we propose leveraging the ICL feature in LLMs to enhance the process of text embedding generation. To this end, we introduce a novel model bge-en-icl, which employs few-shot examples to produce high-quality text embeddings. Our approach integrates task-related examples directly into the query side, resulting in significant improvements across various tasks. Additionally, we have investigated how to effectively utilize LLMs as embedding models, including various attention mechanisms, pooling methods, etc. Our findings suggest that retaining the original framework often yields the best results, underscoring that simplicity is best. Experimental results on the MTEB and AIR-Bench benchmarks demonstrate that our approach sets new state-of-the-art (SOTA) performance. Our model, code and dataset are freely available at https://github.com/FlagOpen/FlagEmbedding .

Summary

AI-Generated Summary

PDF312November 16, 2024