Vector-ICL: Apprendimento in contesto con rappresentazioni vettoriali continue

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato notevoli capacità di apprendimento in contesto (ICL) su dati testuali. Esploriamo se queste capacità possano essere estese a vettori continui provenienti da domini diversi, ottenuti da codificatori preaddestrati black-box. Allineando i dati di input con lo spazio di embedding di un LLM attraverso proiettori leggeri, osserviamo che i LLM possono elaborare efficacemente e apprendere da questi vettori proiettati, che definiamo Vector-ICL. In particolare, scopriamo che il preaddestramento dei proiettori con obiettivi di modellizzazione del linguaggio generale abilita il Vector-ICL, mentre il fine-tuning specifico del compito migliora ulteriormente le prestazioni. Nei nostri esperimenti su vari compiti e modalità, tra cui ricostruzione del testo, regressione di funzioni numeriche, classificazione del testo, riassunto, didascalia di molecole, classificazione delle serie temporali, classificazione dei grafi e decodifica fMRI, il Vector-ICL supera spesso sia l'ICL a pochi esempi che i modelli o il tuning specifici del dominio. Conduciamo inoltre analisi e studi di caso, indicando il potenziale dei LLM nel processare rappresentazioni vettoriali al di là dei paradigmi tradizionali basati su token.

English

Large language models (LLMs) have shown remarkable in-context learning (ICL) capabilities on textual data. We explore whether these capabilities can be extended to continuous vectors from diverse domains, obtained from black-box pretrained encoders. By aligning input data with an LLM's embedding space through lightweight projectors, we observe that LLMs can effectively process and learn from these projected vectors, which we term Vector-ICL. In particular, we find that pretraining projectors with general language modeling objectives enables Vector-ICL, while task-specific finetuning further enhances performance. In our experiments across various tasks and modalities, including text reconstruction, numerical function regression, text classification, summarization, molecule captioning, time-series classification, graph classification, and fMRI decoding, Vector-ICL often surpasses both few-shot ICL and domain-specific model or tuning. We further conduct analyses and case studies, indicating the potential of LLMs to process vector representations beyond traditional token-based paradigms.

Vector-ICL: Apprendimento in contesto con rappresentazioni vettoriali continue

Vector-ICL: In-context Learning with Continuous Vector Representations

Abstract

Support