マルチモーダルLLMのためのリンク・コンテキスト学習
Link-Context Learning for Multimodal LLMs
August 15, 2023
著者: Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu
cs.AI
要旨
文脈から新規概念を学習し、適切な応答を返す能力は、人間の会話において不可欠である。現在のマルチモーダル大規模言語モデル(MLLM)や大規模言語モデル(LLM)は、大規模なデータセットで訓練されているにもかかわらず、未見の画像を認識したり、訓練なしで新規概念を理解したりすることは依然として課題である。インコンテクスト学習(ICL)は、訓練なしの少数ショット学習を探求し、モデルが限られたタスクから「学習することを学び」、未見のタスクに一般化することを促す。本研究では、MLLMの学習能力を強化するために「原因と結果から推論する」ことに重点を置いたリンクコンテクスト学習(LCL)を提案する。LCLは、従来のICLを超えて、サポートセットとクエリセット間の因果関係を明示的に強化する。因果リンクを伴うデモンストレーションを提供することで、LCLはモデルが類推だけでなくデータポイント間の根底にある因果関係も識別するよう導き、MLLMが未見の画像を認識し、新規概念をより効果的に理解することを可能にする。この新しいアプローチの評価を容易にするために、リンクコンテクスト学習のために設計された未見の生成画像-ラベルペアで構成されるISEKAIデータセットを導入する。大規模な実験により、我々のLCL-MLLMが、従来のMLLMに比べて新規概念に対する強力なリンクコンテクスト学習能力を示すことが明らかになった。コードとデータはhttps://github.com/isekai-portal/Link-Context-Learningで公開される。
English
The ability to learn from context with novel concepts, and deliver
appropriate responses are essential in human conversations. Despite current
Multimodal Large Language Models (MLLMs) and Large Language Models (LLMs) being
trained on mega-scale datasets, recognizing unseen images or understanding
novel concepts in a training-free manner remains a challenge. In-Context
Learning (ICL) explores training-free few-shot learning, where models are
encouraged to ``learn to learn" from limited tasks and generalize to unseen
tasks. In this work, we propose link-context learning (LCL), which emphasizes
"reasoning from cause and effect" to augment the learning capabilities of
MLLMs. LCL goes beyond traditional ICL by explicitly strengthening the causal
relationship between the support set and the query set. By providing
demonstrations with causal links, LCL guides the model to discern not only the
analogy but also the underlying causal associations between data points, which
empowers MLLMs to recognize unseen images and understand novel concepts more
effectively. To facilitate the evaluation of this novel approach, we introduce
the ISEKAI dataset, comprising exclusively of unseen generated image-label
pairs designed for link-context learning. Extensive experiments show that our
LCL-MLLM exhibits strong link-context learning capabilities to novel concepts
over vanilla MLLMs. Code and data will be released at
https://github.com/isekai-portal/Link-Context-Learning.