Création d'incrustations de texte pour l'apprentissage à quelques exemples.
Making Text Embedders Few-Shot Learners
September 24, 2024
Auteurs: Chaofan Li, MingHao Qin, Shitao Xiao, Jianlyu Chen, Kun Luo, Yingxia Shao, Defu Lian, Zheng Liu
cs.AI
Résumé
Les grands modèles de langage (LLM) avec des architectures à décodeur seul démontrent des capacités remarquables d'apprentissage en contexte (ICL). Cette caractéristique leur permet de gérer efficacement à la fois des tâches familières et nouvelles en utilisant des exemples fournis dans leur contexte d'entrée. Reconnaissant le potentiel de cette capacité, nous proposons d'exploiter la fonction ICL dans les LLM pour améliorer le processus de génération d'encodage de texte. À cette fin, nous introduisons un modèle novateur bge-en-icl, qui utilise des exemples à quelques coups pour produire des encodages de texte de haute qualité. Notre approche intègre directement des exemples liés à la tâche du côté de la requête, ce qui se traduit par des améliorations significatives sur diverses tâches. De plus, nous avons étudié comment utiliser efficacement les LLM en tant que modèles d'encodage, y compris divers mécanismes d'attention, méthodes de regroupement, etc. Nos résultats suggèrent que le maintien du cadre original donne souvent les meilleurs résultats, soulignant que la simplicité est préférable. Les résultats expérimentaux sur les référentiels MTEB et AIR-Bench montrent que notre approche établit de nouvelles performances de pointe (SOTA). Notre modèle, code et ensemble de données sont disponibles gratuitement sur https://github.com/FlagOpen/FlagEmbedding.
English
Large language models (LLMs) with decoder-only architectures demonstrate
remarkable in-context learning (ICL) capabilities. This feature enables them to
effectively handle both familiar and novel tasks by utilizing examples provided
within their input context. Recognizing the potential of this capability, we
propose leveraging the ICL feature in LLMs to enhance the process of text
embedding generation. To this end, we introduce a novel model bge-en-icl, which
employs few-shot examples to produce high-quality text embeddings. Our approach
integrates task-related examples directly into the query side, resulting in
significant improvements across various tasks. Additionally, we have
investigated how to effectively utilize LLMs as embedding models, including
various attention mechanisms, pooling methods, etc. Our findings suggest that
retaining the original framework often yields the best results, underscoring
that simplicity is best. Experimental results on the MTEB and AIR-Bench
benchmarks demonstrate that our approach sets new state-of-the-art (SOTA)
performance. Our model, code and dataset are freely available at
https://github.com/FlagOpen/FlagEmbedding .Summary
AI-Generated Summary