멀티모달 작업 벡터를 통한 다중 샷 멀티모달 인-컨텍스트 학습 가능
Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning
June 21, 2024
저자: Brandon Huang, Chancharik Mitra, Assaf Arbelle, Leonid Karlinsky, Trevor Darrell, Roei Herzig
cs.AI
초록
최근 인터리브드 대형 멀티모달 모델(Large Multimodal Models, LMMs)의 퓨샷 학습(few-shot learning)에서의 성공은 많은 예시를 활용한 컨텍스트 내 학습(in-context learning, ICL)이 새로운 작업을 학습하는 데 유망할 수 있음을 시사합니다. 그러나 이러한 다수샷 멀티모달 ICL 설정에는 한 가지 중요한 문제가 있습니다: 이는 사전 학습 시 설정된 모델의 컨텍스트 길이에 의해 근본적으로 제한된다는 점입니다. 이 문제는 텍스트와 이미지를 모두 처리하는 멀티모달 도메인에서 특히 두드러지는데, 이는 추가 토큰을 필요로 하기 때문입니다. 이는 파인튜닝 없이도 다수샷을 더 적은 토큰으로 압축할 수 있는 멀티모달 방법의 필요성을 부각시킵니다. 본 연구에서는 멀티모달 태스크 벡터(Multimodal Task Vectors, MTV)—모델의 어텐션 헤드에서 압축된 컨텍스트 내 예시의 간결한 암묵적 표현—를 활용하여 LMMs가 멀티모달 다수샷 컨텍스트 내 학습을 수행할 수 있도록 합니다. 구체적으로, 우리는 먼저 LMMs 내에서 이러한 MTV의 존재를 입증한 다음, 추출된 MTV를 활용하여 다양한 시각-언어 작업에 대한 다수샷 컨텍스트 내 학습을 가능하게 합니다. 우리의 실험 결과는 MTV가 압축된 샷의 수에 따라 성능이 확장될 수 있으며, 추가 컨텍스트 길이 없이도 유사한 도메인 외 작업으로 일반화될 수 있음을 시사합니다.
English
The recent success of interleaved Large Multimodal Models (LMMs) in few-shot
learning suggests that in-context learning (ICL) with many examples can be
promising for learning new tasks. However, this many-shot multimodal ICL
setting has one crucial problem: it is fundamentally limited by the model's
context length set at pretraining. The problem is especially prominent in the
multimodal domain, which processes both text and images, requiring additional
tokens. This motivates the need for a multimodal method to compress many shots
into fewer tokens without finetuning. In this work, we enable LMMs to perform
multimodal, many-shot in-context learning by leveraging Multimodal Task Vectors
(MTV)--compact implicit representations of in-context examples compressed in
the model's attention heads. Specifically, we first demonstrate the existence
of such MTV in LMMs and then leverage these extracted MTV to enable many-shot
in-context learning for various vision-and-language tasks. Our experiments
suggest that MTV can scale in performance with the number of compressed shots
and generalize to similar out-of-domain tasks without additional context length
for inference.Summary
AI-Generated Summary