NL-Eye: NLI abduttivo per immagini
NL-Eye: Abductive NLI for Images
October 3, 2024
Autori: Mor Ventura, Michael Toker, Nitay Calderon, Zorik Gekhman, Yonatan Bitton, Roi Reichart
cs.AI
Abstract
Un bot basato su un Modello di Linguaggio Visivo (VLM) ci avvertirà di scivolare se rileva un pavimento bagnato? I recenti VLM hanno dimostrato capacità impressionanti, tuttavia la loro abilità di inferire risultati e cause rimane poco esplorata. Per affrontare questo problema, presentiamo NL-Eye, un benchmark progettato per valutare le capacità di ragionamento abduttivo visuale dei VLM. NL-Eye adatta il compito abduttivo di Inferenza di Linguaggio Naturale (NLI) al dominio visivo, richiedendo ai modelli di valutare la plausibilità di immagini ipotetiche basate su un'immagine di premessa e spiegare le loro decisioni. NL-Eye è composto da 350 esempi tripletti accuratamente selezionati (1.050 immagini) che coprono diverse categorie di ragionamento: fisico, funzionale, logico, emotivo, culturale e sociale. Il processo di cura dei dati ha coinvolto due fasi - la scrittura di descrizioni testuali e la generazione di immagini utilizzando modelli testo-immagine, entrambi richiedendo un notevole coinvolgimento umano per garantire scene di alta qualità e sfidanti. I nostri esperimenti mostrano che i VLM faticano significativamente su NL-Eye, spesso esibendosi a livelli di base casuali, mentre gli esseri umani eccellono sia nella previsione della plausibilità che nella qualità delle spiegazioni. Ciò dimostra una carenza nelle capacità di ragionamento abduttivo dei moderni VLM. NL-Eye rappresenta un passo cruciale verso lo sviluppo di VLM capaci di un robusto ragionamento multimodale per applicazioni reali, inclusi bot per la prevenzione degli incidenti e la verifica video generata.
English
Will a Visual Language Model (VLM)-based bot warn us about slipping if it
detects a wet floor? Recent VLMs have demonstrated impressive capabilities, yet
their ability to infer outcomes and causes remains underexplored. To address
this, we introduce NL-Eye, a benchmark designed to assess VLMs' visual
abductive reasoning skills. NL-Eye adapts the abductive Natural Language
Inference (NLI) task to the visual domain, requiring models to evaluate the
plausibility of hypothesis images based on a premise image and explain their
decisions. NL-Eye consists of 350 carefully curated triplet examples (1,050
images) spanning diverse reasoning categories: physical, functional, logical,
emotional, cultural, and social. The data curation process involved two steps -
writing textual descriptions and generating images using text-to-image models,
both requiring substantial human involvement to ensure high-quality and
challenging scenes. Our experiments show that VLMs struggle significantly on
NL-Eye, often performing at random baseline levels, while humans excel in both
plausibility prediction and explanation quality. This demonstrates a deficiency
in the abductive reasoning capabilities of modern VLMs. NL-Eye represents a
crucial step toward developing VLMs capable of robust multimodal reasoning for
real-world applications, including accident-prevention bots and generated video
verification.