ChatPaper.aiChatPaper

Link-Kontext-Lernen für multimodale LLMs

Link-Context Learning for Multimodal LLMs

August 15, 2023
Autoren: Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu
cs.AI

Zusammenfassung

Die Fähigkeit, aus dem Kontext mit neuen Konzepten zu lernen und angemessene Antworten zu liefern, ist in menschlichen Gesprächen von entscheidender Bedeutung. Obwohl aktuelle Multimodale Große Sprachmodelle (MLLMs) und Große Sprachmodelle (LLMs) auf riesigen Datensätzen trainiert werden, bleibt die Erkennung unbekannter Bilder oder das Verständnis neuer Konzepte in einer trainingsfreien Weise eine Herausforderung. In-Context-Learning (ICL) untersucht trainingsfreies Few-Shot-Lernen, bei dem Modelle dazu angeregt werden, „Lernen zu lernen“ von begrenzten Aufgaben und auf unbekannte Aufgaben zu verallgemeinern. In dieser Arbeit schlagen wir Link-Context-Learning (LCL) vor, das „Schlussfolgern aus Ursache und Wirkung“ betont, um die Lernfähigkeiten von MLLMs zu erweitern. LCL geht über traditionelles ICL hinaus, indem es die kausale Beziehung zwischen dem Support-Set und dem Query-Set explizit stärkt. Durch die Bereitstellung von Demonstrationen mit kausalen Verknüpfungen leitet LCL das Modell an, nicht nur die Analogie, sondern auch die zugrunde liegenden kausalen Zusammenhänge zwischen Datenpunkten zu erkennen, was MLLMs befähigt, unbekannte Bilder zu erkennen und neue Konzepte effektiver zu verstehen. Um die Bewertung dieses neuartigen Ansatzes zu erleichtern, führen wir den ISEKAI-Datensatz ein, der ausschließlich aus unbekannten generierten Bild-Label-Paaren besteht, die für Link-Context-Learning entwickelt wurden. Umfangreiche Experimente zeigen, dass unser LCL-MLLM starke Link-Context-Learning-Fähigkeiten für neue Konzepte im Vergleich zu herkömmlichen MLLMs aufweist. Code und Daten werden unter https://github.com/isekai-portal/Link-Context-Learning veröffentlicht.
English
The ability to learn from context with novel concepts, and deliver appropriate responses are essential in human conversations. Despite current Multimodal Large Language Models (MLLMs) and Large Language Models (LLMs) being trained on mega-scale datasets, recognizing unseen images or understanding novel concepts in a training-free manner remains a challenge. In-Context Learning (ICL) explores training-free few-shot learning, where models are encouraged to ``learn to learn" from limited tasks and generalize to unseen tasks. In this work, we propose link-context learning (LCL), which emphasizes "reasoning from cause and effect" to augment the learning capabilities of MLLMs. LCL goes beyond traditional ICL by explicitly strengthening the causal relationship between the support set and the query set. By providing demonstrations with causal links, LCL guides the model to discern not only the analogy but also the underlying causal associations between data points, which empowers MLLMs to recognize unseen images and understand novel concepts more effectively. To facilitate the evaluation of this novel approach, we introduce the ISEKAI dataset, comprising exclusively of unseen generated image-label pairs designed for link-context learning. Extensive experiments show that our LCL-MLLM exhibits strong link-context learning capabilities to novel concepts over vanilla MLLMs. Code and data will be released at https://github.com/isekai-portal/Link-Context-Learning.
PDF161December 15, 2024