Apprentissage par Contexte de Liens pour les LLMs Multimodaux
Link-Context Learning for Multimodal LLMs
August 15, 2023
Auteurs: Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu
cs.AI
Résumé
La capacité à apprendre à partir du contexte avec des concepts nouveaux et à fournir des réponses appropriées est essentielle dans les conversations humaines. Malgré les modèles de langage multimodaux de grande taille (MLLMs) et les modèles de langage de grande taille (LLMs) actuels, qui sont entraînés sur des ensembles de données à très grande échelle, la reconnaissance d'images inédites ou la compréhension de concepts nouveaux de manière sans apprentissage reste un défi. L'apprentissage en contexte (In-Context Learning, ICL) explore l'apprentissage en quelques coups sans entraînement, où les modèles sont encouragés à « apprendre à apprendre » à partir de tâches limitées et à généraliser à des tâches inédites. Dans ce travail, nous proposons l'apprentissage par lien contextuel (Link-Context Learning, LCL), qui met l'accent sur le « raisonnement à partir de la cause et de l'effet » pour renforcer les capacités d'apprentissage des MLLMs. LCL va au-delà de l'ICL traditionnel en renforçant explicitement la relation causale entre l'ensemble de support et l'ensemble de requêtes. En fournissant des démonstrations avec des liens causaux, LCL guide le modèle à discerner non seulement l'analogie mais aussi les associations causales sous-jacentes entre les points de données, ce qui permet aux MLLMs de reconnaître des images inédites et de comprendre des concepts nouveaux de manière plus efficace. Pour faciliter l'évaluation de cette nouvelle approche, nous introduisons le jeu de données ISEKAI, composé exclusivement de paires image-étiquette générées inédites conçues pour l'apprentissage par lien contextuel. Des expériences approfondies montrent que notre LCL-MLLM présente de solides capacités d'apprentissage par lien contextuel pour des concepts nouveaux par rapport aux MLLMs classiques. Le code et les données seront disponibles à l'adresse https://github.com/isekai-portal/Link-Context-Learning.
English
The ability to learn from context with novel concepts, and deliver
appropriate responses are essential in human conversations. Despite current
Multimodal Large Language Models (MLLMs) and Large Language Models (LLMs) being
trained on mega-scale datasets, recognizing unseen images or understanding
novel concepts in a training-free manner remains a challenge. In-Context
Learning (ICL) explores training-free few-shot learning, where models are
encouraged to ``learn to learn" from limited tasks and generalize to unseen
tasks. In this work, we propose link-context learning (LCL), which emphasizes
"reasoning from cause and effect" to augment the learning capabilities of
MLLMs. LCL goes beyond traditional ICL by explicitly strengthening the causal
relationship between the support set and the query set. By providing
demonstrations with causal links, LCL guides the model to discern not only the
analogy but also the underlying causal associations between data points, which
empowers MLLMs to recognize unseen images and understand novel concepts more
effectively. To facilitate the evaluation of this novel approach, we introduce
the ISEKAI dataset, comprising exclusively of unseen generated image-label
pairs designed for link-context learning. Extensive experiments show that our
LCL-MLLM exhibits strong link-context learning capabilities to novel concepts
over vanilla MLLMs. Code and data will be released at
https://github.com/isekai-portal/Link-Context-Learning.