Creazione di Incorporatori di Testo Apprendisti Few-Shot
Making Text Embedders Few-Shot Learners
September 24, 2024
Autori: Chaofan Li, MingHao Qin, Shitao Xiao, Jianlyu Chen, Kun Luo, Yingxia Shao, Defu Lian, Zheng Liu
cs.AI
Abstract
I grandi modelli linguistici (LLM) con architetture basate solo sul decoder dimostrano notevoli capacità di apprendimento contestuale (ICL). Questa caratteristica consente loro di gestire efficacemente sia compiti familiari che nuovi utilizzando gli esempi forniti all'interno del loro contesto di input. Riconoscendo il potenziale di questa capacità, proponiamo di sfruttare la funzionalità ICL nei LLM per migliorare il processo di generazione dell'incorporamento del testo. A tal fine, presentiamo un modello innovativo bge-en-icl, che utilizza pochi esempi per produrre incorporamenti di testo di alta qualità. Il nostro approccio integra direttamente gli esempi correlati al compito nel lato della query, ottenendo significativi miglioramenti su vari compiti. Inoltre, abbiamo studiato come utilizzare efficacemente i LLM come modelli di incorporamento, inclusi vari meccanismi di attenzione, metodi di pooling, ecc. I nostri risultati suggeriscono che mantenere il framework originale spesso produce i migliori risultati, sottolineando che la semplicità è la migliore scelta. I risultati sperimentali sui benchmark MTEB e AIR-Bench dimostrano che il nostro approccio stabilisce nuove prestazioni all'avanguardia (SOTA). Il nostro modello, codice e dataset sono liberamente disponibili su https://github.com/FlagOpen/FlagEmbedding.
English
Large language models (LLMs) with decoder-only architectures demonstrate
remarkable in-context learning (ICL) capabilities. This feature enables them to
effectively handle both familiar and novel tasks by utilizing examples provided
within their input context. Recognizing the potential of this capability, we
propose leveraging the ICL feature in LLMs to enhance the process of text
embedding generation. To this end, we introduce a novel model bge-en-icl, which
employs few-shot examples to produce high-quality text embeddings. Our approach
integrates task-related examples directly into the query side, resulting in
significant improvements across various tasks. Additionally, we have
investigated how to effectively utilize LLMs as embedding models, including
various attention mechanisms, pooling methods, etc. Our findings suggest that
retaining the original framework often yields the best results, underscoring
that simplicity is best. Experimental results on the MTEB and AIR-Bench
benchmarks demonstrate that our approach sets new state-of-the-art (SOTA)
performance. Our model, code and dataset are freely available at
https://github.com/FlagOpen/FlagEmbedding .Summary
AI-Generated Summary