ChatPaper.aiChatPaper

Décrire les différences entre ensembles d'images en langage naturel

Describing Differences in Image Sets with Natural Language

December 5, 2023
Auteurs: Lisa Dunlap, Yuhui Zhang, Xiaohan Wang, Ruiqi Zhong, Trevor Darrell, Jacob Steinhardt, Joseph E. Gonzalez, Serena Yeung-Levy
cs.AI

Résumé

Comment deux ensembles d'images diffèrent-ils ? Discerner les différences au niveau des ensembles est crucial pour comprendre les comportements des modèles et analyser les jeux de données, mais parcourir manuellement des milliers d'images est impraticable. Pour faciliter ce processus de découverte, nous explorons la tâche consistant à décrire automatiquement les différences entre deux ensembles d'images, que nous appelons "Set Difference Captioning". Cette tâche prend en entrée les ensembles d'images D_A et D_B, et produit une description qui est plus souvent vraie pour D_A que pour D_B. Nous proposons une approche en deux étapes qui commence par générer des descriptions candidates des différences à partir des ensembles d'images, puis réorganise ces candidats en vérifiant dans quelle mesure ils peuvent différencier les deux ensembles. Nous présentons VisDiff, qui commence par légender les images et sollicite un modèle de langage pour proposer des descriptions candidates, puis réorganise ces descriptions en utilisant CLIP. Pour évaluer VisDiff, nous collectons VisDiffBench, un jeu de données contenant 187 paires d'ensembles d'images avec des descriptions de différences de référence. Nous appliquons VisDiff à divers domaines, tels que la comparaison de jeux de données (par exemple, ImageNet vs. ImageNetV2), la comparaison de modèles de classification (par exemple, CLIP zero-shot vs. ResNet supervisé), la synthèse des modes d'échec des modèles (ResNet supervisé), la caractérisation des différences entre modèles génératifs (par exemple, StableDiffusionV1 et V2), et la découverte de ce qui rend les images mémorables. Grâce à VisDiff, nous sommes en mesure de trouver des différences intéressantes et jusqu'alors inconnues dans les jeux de données et les modèles, démontrant ainsi son utilité pour révéler des insights nuancés.
English
How do two sets of images differ? Discerning set-level differences is crucial for understanding model behaviors and analyzing datasets, yet manually sifting through thousands of images is impractical. To aid in this discovery process, we explore the task of automatically describing the differences between two sets of images, which we term Set Difference Captioning. This task takes in image sets D_A and D_B, and outputs a description that is more often true on D_A than D_B. We outline a two-stage approach that first proposes candidate difference descriptions from image sets and then re-ranks the candidates by checking how well they can differentiate the two sets. We introduce VisDiff, which first captions the images and prompts a language model to propose candidate descriptions, then re-ranks these descriptions using CLIP. To evaluate VisDiff, we collect VisDiffBench, a dataset with 187 paired image sets with ground truth difference descriptions. We apply VisDiff to various domains, such as comparing datasets (e.g., ImageNet vs. ImageNetV2), comparing classification models (e.g., zero-shot CLIP vs. supervised ResNet), summarizing model failure modes (supervised ResNet), characterizing differences between generative models (e.g., StableDiffusionV1 and V2), and discovering what makes images memorable. Using VisDiff, we are able to find interesting and previously unknown differences in datasets and models, demonstrating its utility in revealing nuanced insights.
PDF160December 15, 2024