LANCE: Visuele modellen stress-testen door het genereren van taalgestuurde tegenfeitelijke afbeeldingen

Samenvatting

Wij stellen een geautomatiseerd algoritme voor om een getraind visueel model te stress-testen door het genereren van taalgestuurde tegenfeitelijke testafbeeldingen (LANCE). Onze methode maakt gebruik van recente vooruitgang in grootschalige taalmodellering en tekstgebaseerde beeldbewerking om een IID-testset aan te vullen met een reeks diverse, realistische en uitdagende testafbeeldingen zonder de modelgewichten aan te passen. We meten de prestaties van een diverse set vooraf getrainde modellen op onze gegenereerde gegevens en observeren significante en consistente prestatieverminderingen. We analyseren verder de gevoeligheid van het model voor verschillende soorten bewerkingen en demonstreren de toepasbaarheid ervan bij het blootleggen van voorheen onbekende klasse-specifieke modelvooroordelen in ImageNet.

English

We propose an automated algorithm to stress-test a trained visual model by generating language-guided counterfactual test images (LANCE). Our method leverages recent progress in large language modeling and text-based image editing to augment an IID test set with a suite of diverse, realistic, and challenging test images without altering model weights. We benchmark the performance of a diverse set of pretrained models on our generated data and observe significant and consistent performance drops. We further analyze model sensitivity across different types of edits, and demonstrate its applicability at surfacing previously unknown class-level model biases in ImageNet.

LANCE: Visuele modellen stress-testen door het genereren van taalgestuurde tegenfeitelijke afbeeldingen

LANCE: Stress-testing Visual Models by Generating Language-guided Counterfactual Images

Samenvatting

Support