Mejorando el sentido común visual en modelos de lenguaje mediante la generación múltiple de imágenes
Improving Visual Commonsense in Language Models via Multiple Image Generation
June 19, 2024
Autores: Guy Yariv, Idan Schwartz, Yossi Adi, Sagie Benaim
cs.AI
Resumen
El razonamiento de sentido común se basa fundamentalmente en conocimiento multimodal. Sin embargo, los modelos de lenguaje de gran escala (LLMs) existentes se entrenan principalmente utilizando únicamente datos textuales, lo que limita su capacidad para incorporar información visual esencial. Por el contrario, los modelos de lenguaje visual, que sobresalen en tareas orientadas a lo visual, a menudo fallan en tareas no visuales como el razonamiento básico de sentido común. Esta divergencia resalta un desafío crítico: la integración de una comprensión visual robusta con el razonamiento lingüístico basado en texto. Con este fin, presentamos un método destinado a mejorar el sentido común visual de los LLMs. Específicamente, nuestro método genera múltiples imágenes basadas en el texto de entrada y las integra en el proceso de toma de decisiones del modelo mediante la combinación de sus probabilidades de predicción. Para facilitar el modelado de lenguaje multimodal fundamentado, empleamos una capa de fusión tardía que combina las características visuales proyectadas con la salida de un LLM preentrenado condicionado únicamente en texto. Esta capa de fusión tardía permite realizar predicciones basadas en conocimiento integral de imagen-texto, así como únicamente en texto cuando esto es necesario. Evaluamos nuestro enfoque utilizando varias tareas de razonamiento de sentido común visual junto con tareas tradicionales de PLN, incluyendo razonamiento de sentido común y comprensión lectora. Nuestros resultados experimentales demuestran una superioridad significativa sobre las líneas base existentes. Cuando se aplica a los LLMs más recientes de última generación (por ejemplo, Llama3), observamos mejoras no solo en el sentido común visual, sino también en los puntos de referencia tradicionales de PLN. El código y los modelos están disponibles en https://github.com/guyyariv/vLMIG.
English
Commonsense reasoning is fundamentally based on multimodal knowledge.
However, existing large language models (LLMs) are primarily trained using
textual data only, limiting their ability to incorporate essential visual
information. In contrast, Visual Language Models, which excel at
visually-oriented tasks, often fail at non-visual tasks such as basic
commonsense reasoning. This divergence highlights a critical challenge - the
integration of robust visual understanding with foundational text-based
language reasoning. To this end, we introduce a method aimed at enhancing LLMs'
visual commonsense. Specifically, our method generates multiple images based on
the input text prompt and integrates these into the model's decision-making
process by mixing their prediction probabilities. To facilitate multimodal
grounded language modeling, we employ a late-fusion layer that combines the
projected visual features with the output of a pre-trained LLM conditioned on
text only. This late-fusion layer enables predictions based on comprehensive
image-text knowledge as well as text only when this is required. We evaluate
our approach using several visual commonsense reasoning tasks together with
traditional NLP tasks, including common sense reasoning and reading
comprehension. Our experimental results demonstrate significant superiority
over existing baselines. When applied to recent state-of-the-art LLMs (e.g.,
Llama3), we observe improvements not only in visual common sense but also in
traditional NLP benchmarks. Code and models are available under
https://github.com/guyyariv/vLMIG.Summary
AI-Generated Summary