LANCE: Belastungstests für visuelle Modelle durch die Erzeugung sprachgesteuerter kontrafaktischer Bilder
LANCE: Stress-testing Visual Models by Generating Language-guided Counterfactual Images
May 30, 2023
Autoren: Viraj Prabhu, Sriram Yenamandra, Prithvijit Chattopadhyay, Judy Hoffman
cs.AI
Zusammenfassung
Wir schlagen einen automatisierten Algorithmus vor, um ein trainiertes visuelles Modell durch die Generierung von sprachgesteuerten kontrafaktischen Testbildern (LANCE) zu stress-testen. Unsere Methode nutzt die jüngsten Fortschritte im Bereich des Large Language Modeling und der textbasierten Bildbearbeitung, um einen IID-Testdatensatz mit einer Vielzahl von diversen, realistischen und herausfordernden Testbildern zu erweitern, ohne die Modellgewichte zu verändern. Wir bewerten die Leistung einer vielfältigen Gruppe vortrainierter Modelle auf unseren generierten Daten und beobachten signifikante und konsistente Leistungseinbußen. Darüber hinaus analysieren wir die Modellempfindlichkeit bei verschiedenen Arten von Bearbeitungen und demonstrieren die Anwendbarkeit unserer Methode, um bisher unbekannte klassenbezogene Modellverzerrungen in ImageNet aufzudecken.
English
We propose an automated algorithm to stress-test a trained visual model by
generating language-guided counterfactual test images (LANCE). Our method
leverages recent progress in large language modeling and text-based image
editing to augment an IID test set with a suite of diverse, realistic, and
challenging test images without altering model weights. We benchmark the
performance of a diverse set of pretrained models on our generated data and
observe significant and consistent performance drops. We further analyze model
sensitivity across different types of edits, and demonstrate its applicability
at surfacing previously unknown class-level model biases in ImageNet.