Aprendizado de Contexto de Link para LLMs Multimodais

Resumo

A capacidade de aprender a partir do contexto com conceitos novos e fornecer respostas apropriadas é essencial nas conversas humanas. Apesar dos atuais Modelos de Linguagem Multimodais de Grande Escala (MLLMs) e Modelos de Linguagem de Grande Escala (LLMs) serem treinados em conjuntos de dados de escala massiva, reconhecer imagens não vistas ou compreender conceitos novos de forma livre de treinamento continua sendo um desafio. O Aprendizado em Contexto (ICL, na sigla em inglês) explora o aprendizado de poucos exemplos (few-shot) sem treinamento, onde os modelos são incentivados a "aprender a aprender" a partir de tarefas limitadas e generalizar para tarefas não vistas. Neste trabalho, propomos o aprendizado de contexto com links (LCL, na sigla em inglês), que enfatiza o "raciocínio de causa e efeito" para ampliar as capacidades de aprendizado dos MLLMs. O LCL vai além do ICL tradicional ao fortalecer explicitamente a relação causal entre o conjunto de suporte e o conjunto de consultas. Ao fornecer demonstrações com links causais, o LCL orienta o modelo a discernir não apenas a analogia, mas também as associações causais subjacentes entre os pontos de dados, o que capacita os MLLMs a reconhecer imagens não vistas e compreender conceitos novos de forma mais eficaz. Para facilitar a avaliação dessa nova abordagem, introduzimos o conjunto de dados ISEKAI, composto exclusivamente por pares de imagem-rótulo gerados e não vistos, projetados para o aprendizado de contexto com links. Experimentos extensivos mostram que nosso LCL-MLLM exibe fortes capacidades de aprendizado de contexto com links para conceitos novos em comparação com MLLMs convencionais. O código e os dados serão disponibilizados em https://github.com/isekai-portal/Link-Context-Learning.

English

The ability to learn from context with novel concepts, and deliver appropriate responses are essential in human conversations. Despite current Multimodal Large Language Models (MLLMs) and Large Language Models (LLMs) being trained on mega-scale datasets, recognizing unseen images or understanding novel concepts in a training-free manner remains a challenge. In-Context Learning (ICL) explores training-free few-shot learning, where models are encouraged to ``learn to learn" from limited tasks and generalize to unseen tasks. In this work, we propose link-context learning (LCL), which emphasizes "reasoning from cause and effect" to augment the learning capabilities of MLLMs. LCL goes beyond traditional ICL by explicitly strengthening the causal relationship between the support set and the query set. By providing demonstrations with causal links, LCL guides the model to discern not only the analogy but also the underlying causal associations between data points, which empowers MLLMs to recognize unseen images and understand novel concepts more effectively. To facilitate the evaluation of this novel approach, we introduce the ISEKAI dataset, comprising exclusively of unseen generated image-label pairs designed for link-context learning. Extensive experiments show that our LCL-MLLM exhibits strong link-context learning capabilities to novel concepts over vanilla MLLMs. Code and data will be released at https://github.com/isekai-portal/Link-Context-Learning.

Aprendizado de Contexto de Link para LLMs Multimodais

Link-Context Learning for Multimodal LLMs

Resumo

Support