ChatPaper.aiChatPaper

NL-Eye: Abduktive natürliche Sprachverarbeitung für Bilder

NL-Eye: Abductive NLI for Images

October 3, 2024
Autoren: Mor Ventura, Michael Toker, Nitay Calderon, Zorik Gekhman, Yonatan Bitton, Roi Reichart
cs.AI

Zusammenfassung

Wird uns ein auf einem visuellen Sprachmodell (VLM) basierender Bot warnen, wenn er einen nassen Boden erkennt? Aktuelle VLMs haben beeindruckende Fähigkeiten gezeigt, jedoch bleibt ihre Fähigkeit, Ergebnisse und Ursachen zu erschließen, weitgehend unerforscht. Um dies zu adressieren, stellen wir NL-Eye vor, einen Benchmark, der entwickelt wurde, um die visuellen abduktiven Denkfähigkeiten von VLMs zu bewerten. NL-Eye passt die abduktive Natural Language Inference (NLI)-Aufgabe auf den visuellen Bereich an, wodurch Modelle die Plausibilität von Hypothesenbildern basierend auf einem Prämissenbild bewerten und ihre Entscheidungen erklären müssen. NL-Eye besteht aus 350 sorgfältig kuratierten Tripelbeispielen (1.050 Bilder), die verschiedene Denkkategorien abdecken: physisch, funktional, logisch, emotional, kulturell und sozial. Der Datenkurationsprozess umfasste zwei Schritte - das Verfassen von textuellen Beschreibungen und das Generieren von Bildern mithilfe von Text-zu-Bild-Modellen, wobei beide Schritte erheblichen menschlichen Einsatz erforderten, um qualitativ hochwertige und anspruchsvolle Szenen sicherzustellen. Unsere Experimente zeigen, dass VLMs auf NL-Eye erhebliche Schwierigkeiten haben, oft auf zufälligem Baseliniveau agieren, während Menschen sowohl bei der Plausibilitätsvorhersage als auch bei der Erklärungsqualität herausragende Leistungen erbringen. Dies zeigt eine Defizienz in den abduktiven Denkfähigkeiten moderner VLMs auf. NL-Eye stellt einen entscheidenden Schritt zur Entwicklung von VLMs dar, die zu robustem multimodalem Denken für Anwendungen in der realen Welt fähig sind, einschließlich Unfallverhütungs-Bots und generierter Videoverifikation.
English
Will a Visual Language Model (VLM)-based bot warn us about slipping if it detects a wet floor? Recent VLMs have demonstrated impressive capabilities, yet their ability to infer outcomes and causes remains underexplored. To address this, we introduce NL-Eye, a benchmark designed to assess VLMs' visual abductive reasoning skills. NL-Eye adapts the abductive Natural Language Inference (NLI) task to the visual domain, requiring models to evaluate the plausibility of hypothesis images based on a premise image and explain their decisions. NL-Eye consists of 350 carefully curated triplet examples (1,050 images) spanning diverse reasoning categories: physical, functional, logical, emotional, cultural, and social. The data curation process involved two steps - writing textual descriptions and generating images using text-to-image models, both requiring substantial human involvement to ensure high-quality and challenging scenes. Our experiments show that VLMs struggle significantly on NL-Eye, often performing at random baseline levels, while humans excel in both plausibility prediction and explanation quality. This demonstrates a deficiency in the abductive reasoning capabilities of modern VLMs. NL-Eye represents a crucial step toward developing VLMs capable of robust multimodal reasoning for real-world applications, including accident-prevention bots and generated video verification.

Summary

AI-Generated Summary

PDF232November 16, 2024