ChatPaper.aiChatPaper

Unterschiede in Bildersammlungen mit natürlicher Sprache beschreiben

Describing Differences in Image Sets with Natural Language

December 5, 2023
Autoren: Lisa Dunlap, Yuhui Zhang, Xiaohan Wang, Ruiqi Zhong, Trevor Darrell, Jacob Steinhardt, Joseph E. Gonzalez, Serena Yeung-Levy
cs.AI

Zusammenfassung

Wie unterscheiden sich zwei Bildersätze? Die Erkennung von Unterschieden auf Satzebene ist entscheidend für das Verständnis von Modellverhalten und die Analyse von Datensätzen, doch das manuelle Durchsuchen von Tausenden von Bildern ist unpraktisch. Um diesen Entdeckungsprozess zu unterstützen, untersuchen wir die Aufgabe, die Unterschiede zwischen zwei Bildersätzen automatisch zu beschreiben, was wir als Set Difference Captioning bezeichnen. Diese Aufgabe nimmt die Bildersätze D_A und D_B als Eingabe und gibt eine Beschreibung aus, die häufiger auf D_A als auf D_B zutrifft. Wir skizzieren einen zweistufigen Ansatz, der zunächst Kandidaten für Unterschiedsbeschreibungen aus den Bildersätzen vorschlägt und diese Kandidaten dann neu bewertet, indem überprüft wird, wie gut sie die beiden Sätze unterscheiden können. Wir stellen VisDiff vor, das zunächst die Bilder beschreibt und ein Sprachmodell dazu anregt, Kandidatenbeschreibungen vorzuschlagen, und diese Beschreibungen dann mithilfe von CLIP neu bewertet. Um VisDiff zu evaluieren, sammeln wir VisDiffBench, einen Datensatz mit 187 gepaarten Bildersätzen und zugehörigen Ground-Truth-Unterschiedsbeschreibungen. Wir wenden VisDiff auf verschiedene Domänen an, wie den Vergleich von Datensätzen (z. B. ImageNet vs. ImageNetV2), den Vergleich von Klassifikationsmodellen (z. B. Zero-Shot CLIP vs. überwachtes ResNet), die Zusammenfassung von Modellfehlermodi (überwachtes ResNet), die Charakterisierung von Unterschieden zwischen generativen Modellen (z. B. StableDiffusionV1 und V2) und die Entdeckung dessen, was Bilder einprägsam macht. Mit VisDiff können wir interessante und bisher unbekannte Unterschiede in Datensätzen und Modellen finden, was seinen Nutzen bei der Aufdeckung nuancenreicher Erkenntnisse demonstriert.
English
How do two sets of images differ? Discerning set-level differences is crucial for understanding model behaviors and analyzing datasets, yet manually sifting through thousands of images is impractical. To aid in this discovery process, we explore the task of automatically describing the differences between two sets of images, which we term Set Difference Captioning. This task takes in image sets D_A and D_B, and outputs a description that is more often true on D_A than D_B. We outline a two-stage approach that first proposes candidate difference descriptions from image sets and then re-ranks the candidates by checking how well they can differentiate the two sets. We introduce VisDiff, which first captions the images and prompts a language model to propose candidate descriptions, then re-ranks these descriptions using CLIP. To evaluate VisDiff, we collect VisDiffBench, a dataset with 187 paired image sets with ground truth difference descriptions. We apply VisDiff to various domains, such as comparing datasets (e.g., ImageNet vs. ImageNetV2), comparing classification models (e.g., zero-shot CLIP vs. supervised ResNet), summarizing model failure modes (supervised ResNet), characterizing differences between generative models (e.g., StableDiffusionV1 and V2), and discovering what makes images memorable. Using VisDiff, we are able to find interesting and previously unknown differences in datasets and models, demonstrating its utility in revealing nuanced insights.
PDF160December 15, 2024