ChatPaper.aiChatPaper

멀티모달 작업 벡터를 통한 다중 샷 멀티모달 인-컨텍스트 학습 가능

Multimodal Task Vectors Enable Many-Shot Multimodal In-Context Learning

June 21, 2024
저자: Brandon Huang, Chancharik Mitra, Assaf Arbelle, Leonid Karlinsky, Trevor Darrell, Roei Herzig
cs.AI

초록

최근 인터리브드 대형 멀티모달 모델(Large Multimodal Models, LMMs)의 퓨샷 학습(few-shot learning)에서의 성공은 많은 예시를 활용한 컨텍스트 내 학습(in-context learning, ICL)이 새로운 작업을 학습하는 데 유망할 수 있음을 시사합니다. 그러나 이러한 다수샷 멀티모달 ICL 설정에는 한 가지 중요한 문제가 있습니다: 이는 사전 학습 시 설정된 모델의 컨텍스트 길이에 의해 근본적으로 제한된다는 점입니다. 이 문제는 텍스트와 이미지를 모두 처리하는 멀티모달 도메인에서 특히 두드러지는데, 이는 추가 토큰을 필요로 하기 때문입니다. 이는 파인튜닝 없이도 다수샷을 더 적은 토큰으로 압축할 수 있는 멀티모달 방법의 필요성을 부각시킵니다. 본 연구에서는 멀티모달 태스크 벡터(Multimodal Task Vectors, MTV)—모델의 어텐션 헤드에서 압축된 컨텍스트 내 예시의 간결한 암묵적 표현—를 활용하여 LMMs가 멀티모달 다수샷 컨텍스트 내 학습을 수행할 수 있도록 합니다. 구체적으로, 우리는 먼저 LMMs 내에서 이러한 MTV의 존재를 입증한 다음, 추출된 MTV를 활용하여 다양한 시각-언어 작업에 대한 다수샷 컨텍스트 내 학습을 가능하게 합니다. 우리의 실험 결과는 MTV가 압축된 샷의 수에 따라 성능이 확장될 수 있으며, 추가 컨텍스트 길이 없이도 유사한 도메인 외 작업으로 일반화될 수 있음을 시사합니다.
English
The recent success of interleaved Large Multimodal Models (LMMs) in few-shot learning suggests that in-context learning (ICL) with many examples can be promising for learning new tasks. However, this many-shot multimodal ICL setting has one crucial problem: it is fundamentally limited by the model's context length set at pretraining. The problem is especially prominent in the multimodal domain, which processes both text and images, requiring additional tokens. This motivates the need for a multimodal method to compress many shots into fewer tokens without finetuning. In this work, we enable LMMs to perform multimodal, many-shot in-context learning by leveraging Multimodal Task Vectors (MTV)--compact implicit representations of in-context examples compressed in the model's attention heads. Specifically, we first demonstrate the existence of such MTV in LMMs and then leverage these extracted MTV to enable many-shot in-context learning for various vision-and-language tasks. Our experiments suggest that MTV can scale in performance with the number of compressed shots and generalize to similar out-of-domain tasks without additional context length for inference.

Summary

AI-Generated Summary

PDF91November 29, 2024