벡터-ICL: 연속 벡터 표현을 사용한 맥락 학습
Vector-ICL: In-context Learning with Continuous Vector Representations
October 8, 2024
저자: Yufan Zhuang, Chandan Singh, Liyuan Liu, Jingbo Shang, Jianfeng Gao
cs.AI
초록
대형 언어 모델 (LLM)은 텍스트 데이터에서 현저한 문맥 학습 능력을 보여주었습니다. 우리는 이러한 능력이 블랙박스 사전 훈련된 인코더로부터 얻은 다양한 도메인의 연속 벡터로 확장될 수 있는지 탐구합니다. 경량 프로젝터를 통해 입력 데이터를 LLM의 임베딩 공간에 정렬함으로써, 우리는 LLM이 이러한 프로젝트된 벡터를 효과적으로 처리하고 학습할 수 있는 것을 관찰했습니다. 이를 '벡터-문맥 학습'이라고 합니다. 특히, 우리는 일반적인 언어 모델링 목표로 프로젝터를 사전 훈련시킴으로써 벡터-문맥 학습을 가능케 하며, 작업 특정한 파인튜닝은 성능을 더욱 향상시킵니다. 다양한 작업 및 모달리티를 포함한 실험에서, 텍스트 재구성, 수치 함수 회귀, 텍스트 분류, 요약, 분자 캡션, 시계열 분류, 그래프 분류, 그리고 fMRI 디코딩 등의 작업에서, 벡터-문맥 학습은 종종 소수 학습 문맥 학습 및 도메인 특정 모델 또는 튜닝을 능가합니다. 우리는 벡터 표현을 전통적인 토큰 기반 패러다임을 넘어서 처리할 수 있는 LLM의 잠재력을 나타내는 분석 및 사례 연구를 더 진행합니다.
English
Large language models (LLMs) have shown remarkable in-context learning (ICL)
capabilities on textual data. We explore whether these capabilities can be
extended to continuous vectors from diverse domains, obtained from black-box
pretrained encoders. By aligning input data with an LLM's embedding space
through lightweight projectors, we observe that LLMs can effectively process
and learn from these projected vectors, which we term Vector-ICL. In
particular, we find that pretraining projectors with general language modeling
objectives enables Vector-ICL, while task-specific finetuning further enhances
performance. In our experiments across various tasks and modalities, including
text reconstruction, numerical function regression, text classification,
summarization, molecule captioning, time-series classification, graph
classification, and fMRI decoding, Vector-ICL often surpasses both few-shot ICL
and domain-specific model or tuning. We further conduct analyses and case
studies, indicating the potential of LLMs to process vector representations
beyond traditional token-based paradigms.Summary
AI-Generated Summary