Link-Context Leren voor Multimodale LLM's
Link-Context Learning for Multimodal LLMs
August 15, 2023
Auteurs: Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu
cs.AI
Samenvatting
Het vermogen om uit context te leren met nieuwe concepten en passende reacties te geven, is essentieel in menselijke gesprekken. Ondanks dat huidige Multimodale Large Language Models (MLLMs) en Large Language Models (LLMs) getraind zijn op megagrote datasets, blijft het herkennen van onbekende afbeeldingen of het begrijpen van nieuwe concepten op een trainingsvrije manier een uitdaging. In-Context Learning (ICL) onderzoekt trainingsvrije few-shot learning, waarbij modellen worden aangemoedigd om "te leren leren" van beperkte taken en te generaliseren naar onbekende taken. In dit werk stellen we link-context learning (LCL) voor, dat de nadruk legt op "redeneren vanuit oorzaak en gevolg" om de leermogelijkheden van MLLMs te vergroten. LCL gaat verder dan traditionele ICL door expliciet de causale relatie tussen de ondersteuningsset en de queryset te versterken. Door demonstraties met causale verbanden te bieden, leidt LCL het model om niet alleen de analogie maar ook de onderliggende causale associaties tussen datapunten te onderscheiden, wat MLLMs in staat stelt om onbekende afbeeldingen te herkennen en nieuwe concepten effectiever te begrijpen. Om de evaluatie van deze nieuwe aanpak te vergemakkelijken, introduceren we de ISEKAI dataset, die uitsluitend bestaat uit onbekende gegenereerde afbeelding-label paren die ontworpen zijn voor link-context learning. Uitgebreide experimenten tonen aan dat onze LCL-MLLM sterke link-context leermogelijkheden vertoont voor nieuwe concepten in vergelijking met standaard MLLMs. Code en data zullen worden vrijgegeven op https://github.com/isekai-portal/Link-Context-Learning.
English
The ability to learn from context with novel concepts, and deliver
appropriate responses are essential in human conversations. Despite current
Multimodal Large Language Models (MLLMs) and Large Language Models (LLMs) being
trained on mega-scale datasets, recognizing unseen images or understanding
novel concepts in a training-free manner remains a challenge. In-Context
Learning (ICL) explores training-free few-shot learning, where models are
encouraged to ``learn to learn" from limited tasks and generalize to unseen
tasks. In this work, we propose link-context learning (LCL), which emphasizes
"reasoning from cause and effect" to augment the learning capabilities of
MLLMs. LCL goes beyond traditional ICL by explicitly strengthening the causal
relationship between the support set and the query set. By providing
demonstrations with causal links, LCL guides the model to discern not only the
analogy but also the underlying causal associations between data points, which
empowers MLLMs to recognize unseen images and understand novel concepts more
effectively. To facilitate the evaluation of this novel approach, we introduce
the ISEKAI dataset, comprising exclusively of unseen generated image-label
pairs designed for link-context learning. Extensive experiments show that our
LCL-MLLM exhibits strong link-context learning capabilities to novel concepts
over vanilla MLLMs. Code and data will be released at
https://github.com/isekai-portal/Link-Context-Learning.