ChatPaper.aiChatPaper

NL-Eye: Abductieve NLI voor Afbeeldingen

NL-Eye: Abductive NLI for Images

October 3, 2024
Auteurs: Mor Ventura, Michael Toker, Nitay Calderon, Zorik Gekhman, Yonatan Bitton, Roi Reichart
cs.AI

Samenvatting

Zal een op een Visueel Taalmodel (VLM) gebaseerde bot ons waarschuwen voor uitglijden als het een natte vloer detecteert? Recente VLM's hebben indrukwekkende mogelijkheden aangetoond, maar hun vermogen om uitkomsten en oorzaken af te leiden blijft onderbelicht. Om dit aan te pakken, introduceren we NL-Eye, een benchmark ontworpen om de visuele abductieve redeneervaardigheden van VLM's te beoordelen. NL-Eye past de abductieve Natural Language Inference (NLI) taak aan naar het visuele domein, waarbij modellen de plausibiliteit van hypothesebeelden moeten evalueren op basis van een premissebeeld en hun beslissingen moeten uitleggen. NL-Eye bestaat uit 350 zorgvuldig samengestelde drietalvoorbeelden (1.050 afbeeldingen) die verschillende redeneringscategorieën bestrijken: fysiek, functioneel, logisch, emotioneel, cultureel en sociaal. Het proces van gegevenscuratie omvatte twee stappen - het schrijven van tekstuele beschrijvingen en het genereren van afbeeldingen met behulp van tekst-naar-afbeelding modellen, waarbij beide stappen aanzienlijke menselijke betrokkenheid vereisten om hoogwaardige en uitdagende scènes te waarborgen. Onze experimenten tonen aan dat VLM's aanzienlijke moeite hebben met NL-Eye, vaak presterend op willekeurige basislijnniveaus, terwijl mensen uitblinken in zowel plausibiliteitsvoorspelling als uitlegkwaliteit. Dit toont een tekortkoming aan in de abductieve redeneervaardigheden van moderne VLM's. NL-Eye vertegenwoordigt een cruciale stap naar de ontwikkeling van VLM's die in staat zijn tot robuuste multimodale redenering voor praktische toepassingen, waaronder bots voor het voorkomen van ongelukken en gegenereerde videoverificatie.
English
Will a Visual Language Model (VLM)-based bot warn us about slipping if it detects a wet floor? Recent VLMs have demonstrated impressive capabilities, yet their ability to infer outcomes and causes remains underexplored. To address this, we introduce NL-Eye, a benchmark designed to assess VLMs' visual abductive reasoning skills. NL-Eye adapts the abductive Natural Language Inference (NLI) task to the visual domain, requiring models to evaluate the plausibility of hypothesis images based on a premise image and explain their decisions. NL-Eye consists of 350 carefully curated triplet examples (1,050 images) spanning diverse reasoning categories: physical, functional, logical, emotional, cultural, and social. The data curation process involved two steps - writing textual descriptions and generating images using text-to-image models, both requiring substantial human involvement to ensure high-quality and challenging scenes. Our experiments show that VLMs struggle significantly on NL-Eye, often performing at random baseline levels, while humans excel in both plausibility prediction and explanation quality. This demonstrates a deficiency in the abductive reasoning capabilities of modern VLMs. NL-Eye represents a crucial step toward developing VLMs capable of robust multimodal reasoning for real-world applications, including accident-prevention bots and generated video verification.

Summary

AI-Generated Summary

PDF232November 16, 2024