ChatPaper.aiChatPaper

Vector-ICL: Aprendizaje en Contexto con Representaciones Vectoriales Continuas

Vector-ICL: In-context Learning with Continuous Vector Representations

October 8, 2024
Autores: Yufan Zhuang, Chandan Singh, Liyuan Liu, Jingbo Shang, Jianfeng Gao
cs.AI

Resumen

Los grandes modelos de lenguaje (LLMs) han demostrado notables capacidades de aprendizaje en contexto (ICL) en datos textuales. Exploramos si estas capacidades pueden extenderse a vectores continuos de diversos dominios, obtenidos de codificadores preentrenados de caja negra. Al alinear los datos de entrada con el espacio de incrustación de un LLM a través de proyectores ligeros, observamos que los LLMs pueden procesar y aprender de manera efectiva a partir de estos vectores proyectados, a los que denominamos Vector-ICL. En particular, encontramos que el preentrenamiento de proyectores con objetivos generales de modelado de lenguaje habilita el Vector-ICL, mientras que el ajuste fino específico de la tarea mejora aún más el rendimiento. En nuestros experimentos en diversas tareas y modalidades, incluyendo reconstrucción de texto, regresión de funciones numéricas, clasificación de texto, resumen, titulación de moléculas, clasificación de series temporales, clasificación de grafos y decodificación de fMRI, el Vector-ICL a menudo supera tanto al ICL de pocas muestras como al modelo o ajuste específico de dominio. Además, realizamos análisis y estudios de casos, que indican el potencial de los LLMs para procesar representaciones vectoriales más allá de los paradigmas tradicionales basados en tokens.
English
Large language models (LLMs) have shown remarkable in-context learning (ICL) capabilities on textual data. We explore whether these capabilities can be extended to continuous vectors from diverse domains, obtained from black-box pretrained encoders. By aligning input data with an LLM's embedding space through lightweight projectors, we observe that LLMs can effectively process and learn from these projected vectors, which we term Vector-ICL. In particular, we find that pretraining projectors with general language modeling objectives enables Vector-ICL, while task-specific finetuning further enhances performance. In our experiments across various tasks and modalities, including text reconstruction, numerical function regression, text classification, summarization, molecule captioning, time-series classification, graph classification, and fMRI decoding, Vector-ICL often surpasses both few-shot ICL and domain-specific model or tuning. We further conduct analyses and case studies, indicating the potential of LLMs to process vector representations beyond traditional token-based paradigms.

Summary

AI-Generated Summary

PDF33November 16, 2024