NL-Eye: Inferencia Lógica Abductiva para Imágenes
NL-Eye: Abductive NLI for Images
October 3, 2024
Autores: Mor Ventura, Michael Toker, Nitay Calderon, Zorik Gekhman, Yonatan Bitton, Roi Reichart
cs.AI
Resumen
¿Advertirá un bot basado en un Modelo de Lenguaje Visual (VLM) si detecta un piso mojado? Los VLM recientes han demostrado capacidades impresionantes, sin embargo, su habilidad para inferir resultados y causas sigue siendo poco explorada. Para abordar esto, presentamos NL-Eye, un banco de pruebas diseñado para evaluar las habilidades de razonamiento abductivo visual de los VLM. NL-Eye adapta la tarea abductiva de Inferencia de Lenguaje Natural (NLI) al dominio visual, requiriendo que los modelos evalúen la plausibilidad de imágenes hipotéticas basadas en una imagen de premisa y expliquen sus decisiones. NL-Eye consta de 350 ejemplos de tripletes cuidadosamente seleccionados (1,050 imágenes) que abarcan diversas categorías de razonamiento: físico, funcional, lógico, emocional, cultural y social. El proceso de curación de datos involucró dos pasos: escribir descripciones textuales y generar imágenes utilizando modelos de texto a imagen, ambos requiriendo una participación humana sustancial para garantizar escenas de alta calidad y desafiantes. Nuestros experimentos muestran que los VLM tienen dificultades significativas en NL-Eye, a menudo desempeñándose en niveles de referencia aleatoria, mientras que los humanos sobresalen tanto en la predicción de plausibilidad como en la calidad de explicación. Esto demuestra una deficiencia en las capacidades de razonamiento abductivo de los VLM modernos. NL-Eye representa un paso crucial hacia el desarrollo de VLM capaces de un razonamiento multimodal robusto para aplicaciones del mundo real, incluidos bots de prevención de accidentes y verificación de videos generados.
English
Will a Visual Language Model (VLM)-based bot warn us about slipping if it
detects a wet floor? Recent VLMs have demonstrated impressive capabilities, yet
their ability to infer outcomes and causes remains underexplored. To address
this, we introduce NL-Eye, a benchmark designed to assess VLMs' visual
abductive reasoning skills. NL-Eye adapts the abductive Natural Language
Inference (NLI) task to the visual domain, requiring models to evaluate the
plausibility of hypothesis images based on a premise image and explain their
decisions. NL-Eye consists of 350 carefully curated triplet examples (1,050
images) spanning diverse reasoning categories: physical, functional, logical,
emotional, cultural, and social. The data curation process involved two steps -
writing textual descriptions and generating images using text-to-image models,
both requiring substantial human involvement to ensure high-quality and
challenging scenes. Our experiments show that VLMs struggle significantly on
NL-Eye, often performing at random baseline levels, while humans excel in both
plausibility prediction and explanation quality. This demonstrates a deficiency
in the abductive reasoning capabilities of modern VLMs. NL-Eye represents a
crucial step toward developing VLMs capable of robust multimodal reasoning for
real-world applications, including accident-prevention bots and generated video
verification.Summary
AI-Generated Summary