Контекстное обучение с учетом связей для мультимодальных больших языковых моделей
Link-Context Learning for Multimodal LLMs
August 15, 2023
Авторы: Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu
cs.AI
Аннотация
Способность обучаться на основе контекста с новыми концепциями и давать соответствующие ответы является ключевой в человеческих диалогах. Несмотря на то, что современные мультимодальные большие языковые модели (MLLMs) и большие языковые модели (LLMs) обучаются на огромных наборах данных, распознавание неизвестных изображений или понимание новых концепций без дополнительного обучения остается сложной задачей. Обучение в контексте (In-Context Learning, ICL) исследует обучение с малым количеством примеров без дополнительного обучения, где модели стимулируются к тому, чтобы "учиться учиться" на ограниченных задачах и обобщать их на неизвестные задачи. В данной работе мы предлагаем обучение с учетом связей (Link-Context Learning, LCL), которое делает акцент на "рассуждении о причинно-следственных связях" для расширения возможностей обучения MLLMs. LCL выходит за рамки традиционного ICL, явно усиливая причинно-следственную связь между обучающим набором и набором запросов. Предоставляя примеры с причинно-следственными связями, LCL направляет модель на распознавание не только аналогий, но и глубинных причинно-следственных ассоциаций между точками данных, что позволяет MLLMs более эффективно распознавать неизвестные изображения и понимать новые концепции. Для облегчения оценки этого нового подхода мы представляем набор данных ISEKAI, состоящий исключительно из неизвестных сгенерированных пар изображение-метка, разработанных для обучения с учетом связей. Многочисленные эксперименты показывают, что наша LCL-MLLM демонстрирует сильные способности к обучению с учетом связей для новых концепций по сравнению с базовыми MLLMs. Код и данные будут доступны по адресу https://github.com/isekai-portal/Link-Context-Learning.
English
The ability to learn from context with novel concepts, and deliver
appropriate responses are essential in human conversations. Despite current
Multimodal Large Language Models (MLLMs) and Large Language Models (LLMs) being
trained on mega-scale datasets, recognizing unseen images or understanding
novel concepts in a training-free manner remains a challenge. In-Context
Learning (ICL) explores training-free few-shot learning, where models are
encouraged to ``learn to learn" from limited tasks and generalize to unseen
tasks. In this work, we propose link-context learning (LCL), which emphasizes
"reasoning from cause and effect" to augment the learning capabilities of
MLLMs. LCL goes beyond traditional ICL by explicitly strengthening the causal
relationship between the support set and the query set. By providing
demonstrations with causal links, LCL guides the model to discern not only the
analogy but also the underlying causal associations between data points, which
empowers MLLMs to recognize unseen images and understand novel concepts more
effectively. To facilitate the evaluation of this novel approach, we introduce
the ISEKAI dataset, comprising exclusively of unseen generated image-label
pairs designed for link-context learning. Extensive experiments show that our
LCL-MLLM exhibits strong link-context learning capabilities to novel concepts
over vanilla MLLMs. Code and data will be released at
https://github.com/isekai-portal/Link-Context-Learning.