NL-Eye: NLI Abducente para Imagens
NL-Eye: Abductive NLI for Images
October 3, 2024
Autores: Mor Ventura, Michael Toker, Nitay Calderon, Zorik Gekhman, Yonatan Bitton, Roi Reichart
cs.AI
Resumo
Um bot baseado em Modelo de Linguagem Visual (VLM) nos alertará sobre escorregões se detectar um piso molhado? Modelos visuais recentes têm demonstrado capacidades impressionantes, no entanto, sua habilidade de inferir resultados e causas permanece pouco explorada. Para abordar isso, apresentamos o NL-Eye, um benchmark projetado para avaliar as habilidades visuais de raciocínio abdutivo dos VLMs. O NL-Eye adapta a tarefa abdutiva de Inferência de Linguagem Natural (NLI) para o domínio visual, exigindo que os modelos avaliem a plausibilidade de imagens hipotéticas com base em uma imagem de premissa e expliquem suas decisões. O NL-Eye consiste em 350 exemplos de triplas cuidadosamente selecionados (1.050 imagens) abrangendo diversas categorias de raciocínio: físico, funcional, lógico, emocional, cultural e social. O processo de curadoria de dados envolveu duas etapas - escrever descrições textuais e gerar imagens usando modelos de texto para imagem, ambas exigindo um envolvimento humano substancial para garantir cenas de alta qualidade e desafiadoras. Nossos experimentos mostram que os VLMs enfrentam dificuldades significativas no NL-Eye, frequentemente apresentando desempenho em níveis de linha de base aleatória, enquanto os humanos se destacam tanto na previsão de plausibilidade quanto na qualidade da explicação. Isso demonstra uma deficiência nas capacidades de raciocínio abdutivo dos VLMs modernos. O NL-Eye representa um passo crucial em direção ao desenvolvimento de VLMs capazes de raciocínio multimodal robusto para aplicações do mundo real, incluindo bots de prevenção de acidentes e verificação de vídeos gerados.
English
Will a Visual Language Model (VLM)-based bot warn us about slipping if it
detects a wet floor? Recent VLMs have demonstrated impressive capabilities, yet
their ability to infer outcomes and causes remains underexplored. To address
this, we introduce NL-Eye, a benchmark designed to assess VLMs' visual
abductive reasoning skills. NL-Eye adapts the abductive Natural Language
Inference (NLI) task to the visual domain, requiring models to evaluate the
plausibility of hypothesis images based on a premise image and explain their
decisions. NL-Eye consists of 350 carefully curated triplet examples (1,050
images) spanning diverse reasoning categories: physical, functional, logical,
emotional, cultural, and social. The data curation process involved two steps -
writing textual descriptions and generating images using text-to-image models,
both requiring substantial human involvement to ensure high-quality and
challenging scenes. Our experiments show that VLMs struggle significantly on
NL-Eye, often performing at random baseline levels, while humans excel in both
plausibility prediction and explanation quality. This demonstrates a deficiency
in the abductive reasoning capabilities of modern VLMs. NL-Eye represents a
crucial step toward developing VLMs capable of robust multimodal reasoning for
real-world applications, including accident-prevention bots and generated video
verification.