Vector-ICL: Aprendizaje en Contexto con Representaciones Vectoriales Continuas
Vector-ICL: In-context Learning with Continuous Vector Representations
October 8, 2024
Autores: Yufan Zhuang, Chandan Singh, Liyuan Liu, Jingbo Shang, Jianfeng Gao
cs.AI
Resumen
Los grandes modelos de lenguaje (LLMs) han demostrado notables capacidades de aprendizaje en contexto (ICL) en datos textuales. Exploramos si estas capacidades pueden extenderse a vectores continuos de diversos dominios, obtenidos de codificadores preentrenados de caja negra. Al alinear los datos de entrada con el espacio de incrustación de un LLM a través de proyectores ligeros, observamos que los LLMs pueden procesar y aprender de manera efectiva a partir de estos vectores proyectados, a los que denominamos Vector-ICL. En particular, encontramos que el preentrenamiento de proyectores con objetivos generales de modelado de lenguaje habilita el Vector-ICL, mientras que el ajuste fino específico de la tarea mejora aún más el rendimiento. En nuestros experimentos en diversas tareas y modalidades, incluyendo reconstrucción de texto, regresión de funciones numéricas, clasificación de texto, resumen, titulación de moléculas, clasificación de series temporales, clasificación de grafos y decodificación de fMRI, el Vector-ICL a menudo supera tanto al ICL de pocas muestras como al modelo o ajuste específico de dominio. Además, realizamos análisis y estudios de casos, que indican el potencial de los LLMs para procesar representaciones vectoriales más allá de los paradigmas tradicionales basados en tokens.
English
Large language models (LLMs) have shown remarkable in-context learning (ICL)
capabilities on textual data. We explore whether these capabilities can be
extended to continuous vectors from diverse domains, obtained from black-box
pretrained encoders. By aligning input data with an LLM's embedding space
through lightweight projectors, we observe that LLMs can effectively process
and learn from these projected vectors, which we term Vector-ICL. In
particular, we find that pretraining projectors with general language modeling
objectives enables Vector-ICL, while task-specific finetuning further enhances
performance. In our experiments across various tasks and modalities, including
text reconstruction, numerical function regression, text classification,
summarization, molecule captioning, time-series classification, graph
classification, and fMRI decoding, Vector-ICL often surpasses both few-shot ICL
and domain-specific model or tuning. We further conduct analyses and case
studies, indicating the potential of LLMs to process vector representations
beyond traditional token-based paradigms.Summary
AI-Generated Summary