Aprendizado de Contexto de Link para LLMs Multimodais
Link-Context Learning for Multimodal LLMs
August 15, 2023
Autores: Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu
cs.AI
Resumo
A capacidade de aprender a partir do contexto com conceitos novos e fornecer respostas apropriadas é essencial nas conversas humanas. Apesar dos atuais Modelos de Linguagem Multimodais de Grande Escala (MLLMs) e Modelos de Linguagem de Grande Escala (LLMs) serem treinados em conjuntos de dados de escala massiva, reconhecer imagens não vistas ou compreender conceitos novos de forma livre de treinamento continua sendo um desafio. O Aprendizado em Contexto (ICL, na sigla em inglês) explora o aprendizado de poucos exemplos (few-shot) sem treinamento, onde os modelos são incentivados a "aprender a aprender" a partir de tarefas limitadas e generalizar para tarefas não vistas. Neste trabalho, propomos o aprendizado de contexto com links (LCL, na sigla em inglês), que enfatiza o "raciocínio de causa e efeito" para ampliar as capacidades de aprendizado dos MLLMs. O LCL vai além do ICL tradicional ao fortalecer explicitamente a relação causal entre o conjunto de suporte e o conjunto de consultas. Ao fornecer demonstrações com links causais, o LCL orienta o modelo a discernir não apenas a analogia, mas também as associações causais subjacentes entre os pontos de dados, o que capacita os MLLMs a reconhecer imagens não vistas e compreender conceitos novos de forma mais eficaz. Para facilitar a avaliação dessa nova abordagem, introduzimos o conjunto de dados ISEKAI, composto exclusivamente por pares de imagem-rótulo gerados e não vistos, projetados para o aprendizado de contexto com links. Experimentos extensivos mostram que nosso LCL-MLLM exibe fortes capacidades de aprendizado de contexto com links para conceitos novos em comparação com MLLMs convencionais. O código e os dados serão disponibilizados em https://github.com/isekai-portal/Link-Context-Learning.
English
The ability to learn from context with novel concepts, and deliver
appropriate responses are essential in human conversations. Despite current
Multimodal Large Language Models (MLLMs) and Large Language Models (LLMs) being
trained on mega-scale datasets, recognizing unseen images or understanding
novel concepts in a training-free manner remains a challenge. In-Context
Learning (ICL) explores training-free few-shot learning, where models are
encouraged to ``learn to learn" from limited tasks and generalize to unseen
tasks. In this work, we propose link-context learning (LCL), which emphasizes
"reasoning from cause and effect" to augment the learning capabilities of
MLLMs. LCL goes beyond traditional ICL by explicitly strengthening the causal
relationship between the support set and the query set. By providing
demonstrations with causal links, LCL guides the model to discern not only the
analogy but also the underlying causal associations between data points, which
empowers MLLMs to recognize unseen images and understand novel concepts more
effectively. To facilitate the evaluation of this novel approach, we introduce
the ISEKAI dataset, comprising exclusively of unseen generated image-label
pairs designed for link-context learning. Extensive experiments show that our
LCL-MLLM exhibits strong link-context learning capabilities to novel concepts
over vanilla MLLMs. Code and data will be released at
https://github.com/isekai-portal/Link-Context-Learning.