Aprendizaje de Contexto de Enlaces para Modelos de Lenguaje Multimodales
Link-Context Learning for Multimodal LLMs
August 15, 2023
Autores: Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu
cs.AI
Resumen
La capacidad de aprender del contexto con conceptos novedosos y ofrecer respuestas adecuadas es esencial en las conversaciones humanas. A pesar de que los modelos de lenguaje multimodal de gran escala (MLLMs) y los modelos de lenguaje de gran escala (LLMs) actuales están entrenados en conjuntos de datos de gran magnitud, reconocer imágenes no vistas o comprender conceptos novedosos de manera libre de entrenamiento sigue siendo un desafío. El aprendizaje en contexto (ICL, por sus siglas en inglés) explora el aprendizaje de pocos ejemplos sin entrenamiento, donde se fomenta que los modelos "aprendan a aprender" a partir de tareas limitadas y generalicen a tareas no vistas. En este trabajo, proponemos el aprendizaje de contexto enlazado (LCL, por sus siglas en inglés), que enfatiza el "razonamiento de causa y efecto" para potenciar las capacidades de aprendizaje de los MLLMs. LCL va más allá del ICL tradicional al fortalecer explícitamente la relación causal entre el conjunto de soporte y el conjunto de consulta. Al proporcionar demostraciones con enlaces causales, LCL guía al modelo para discernir no solo la analogía, sino también las asociaciones causales subyacentes entre los puntos de datos, lo que permite a los MLLMs reconocer imágenes no vistas y comprender conceptos novedosos de manera más efectiva. Para facilitar la evaluación de este enfoque novedoso, presentamos el conjunto de datos ISEKAI, que consta exclusivamente de pares de imagen-etiqueta generados no vistos diseñados para el aprendizaje de contexto enlazado. Experimentos extensos muestran que nuestro LCL-MLLM exhibe fuertes capacidades de aprendizaje de contexto enlazado para conceptos novedosos en comparación con los MLLMs convencionales. El código y los datos se publicarán en https://github.com/isekai-portal/Link-Context-Learning.
English
The ability to learn from context with novel concepts, and deliver
appropriate responses are essential in human conversations. Despite current
Multimodal Large Language Models (MLLMs) and Large Language Models (LLMs) being
trained on mega-scale datasets, recognizing unseen images or understanding
novel concepts in a training-free manner remains a challenge. In-Context
Learning (ICL) explores training-free few-shot learning, where models are
encouraged to ``learn to learn" from limited tasks and generalize to unseen
tasks. In this work, we propose link-context learning (LCL), which emphasizes
"reasoning from cause and effect" to augment the learning capabilities of
MLLMs. LCL goes beyond traditional ICL by explicitly strengthening the causal
relationship between the support set and the query set. By providing
demonstrations with causal links, LCL guides the model to discern not only the
analogy but also the underlying causal associations between data points, which
empowers MLLMs to recognize unseen images and understand novel concepts more
effectively. To facilitate the evaluation of this novel approach, we introduce
the ISEKAI dataset, comprising exclusively of unseen generated image-label
pairs designed for link-context learning. Extensive experiments show that our
LCL-MLLM exhibits strong link-context learning capabilities to novel concepts
over vanilla MLLMs. Code and data will be released at
https://github.com/isekai-portal/Link-Context-Learning.