Apprendimento Link-Contesto per Modelli Linguistici Multimodali
Link-Context Learning for Multimodal LLMs
August 15, 2023
Autori: Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu
cs.AI
Abstract
La capacità di apprendere dal contesto con concetti nuovi e di fornire risposte appropriate è essenziale nelle conversazioni umane. Nonostante gli attuali Modelli Linguistici Multimodali di Grande Scala (MLLMs) e i Modelli Linguistici di Grande Scala (LLMs) siano addestrati su dataset di dimensioni enormi, riconoscere immagini mai viste o comprendere concetti nuovi in modo privo di addestramento rimane una sfida. L'Apprendimento in Contesto (ICL) esplora l'apprendimento few-shot privo di addestramento, in cui i modelli sono incoraggiati a "imparare ad apprendere" da compiti limitati e a generalizzare su compiti mai visti. In questo lavoro, proponiamo l'apprendimento a collegamenti contestuali (LCL), che enfatizza il "ragionamento causa-effetto" per potenziare le capacità di apprendimento degli MLLMs. LCL va oltre il tradizionale ICL rafforzando esplicitamente la relazione causale tra il set di supporto e il set di query. Fornendo dimostrazioni con collegamenti causali, LCL guida il modello a discernere non solo l'analogia ma anche le associazioni causali sottostanti tra i punti dati, il che consente agli MLLMs di riconoscere immagini mai viste e comprendere concetti nuovi in modo più efficace. Per facilitare la valutazione di questo nuovo approccio, introduciamo il dataset ISEKAI, composto esclusivamente da coppie immagine-etichetta generate e mai viste, progettato per l'apprendimento a collegamenti contestuali. Esperimenti estesi dimostrano che il nostro LCL-MLLM mostra forti capacità di apprendimento a collegamenti contestuali su concetti nuovi rispetto ai tradizionali MLLMs. Codice e dati saranno rilasciati su https://github.com/isekai-portal/Link-Context-Learning.
English
The ability to learn from context with novel concepts, and deliver
appropriate responses are essential in human conversations. Despite current
Multimodal Large Language Models (MLLMs) and Large Language Models (LLMs) being
trained on mega-scale datasets, recognizing unseen images or understanding
novel concepts in a training-free manner remains a challenge. In-Context
Learning (ICL) explores training-free few-shot learning, where models are
encouraged to ``learn to learn" from limited tasks and generalize to unseen
tasks. In this work, we propose link-context learning (LCL), which emphasizes
"reasoning from cause and effect" to augment the learning capabilities of
MLLMs. LCL goes beyond traditional ICL by explicitly strengthening the causal
relationship between the support set and the query set. By providing
demonstrations with causal links, LCL guides the model to discern not only the
analogy but also the underlying causal associations between data points, which
empowers MLLMs to recognize unseen images and understand novel concepts more
effectively. To facilitate the evaluation of this novel approach, we introduce
the ISEKAI dataset, comprising exclusively of unseen generated image-label
pairs designed for link-context learning. Extensive experiments show that our
LCL-MLLM exhibits strong link-context learning capabilities to novel concepts
over vanilla MLLMs. Code and data will be released at
https://github.com/isekai-portal/Link-Context-Learning.