LANCE: Стресс-тестирование визуальных моделей путем генерации контрфактических изображений на основе языковых инструкций
LANCE: Stress-testing Visual Models by Generating Language-guided Counterfactual Images
May 30, 2023
Авторы: Viraj Prabhu, Sriram Yenamandra, Prithvijit Chattopadhyay, Judy Hoffman
cs.AI
Аннотация
Мы предлагаем автоматизированный алгоритм для стресс-тестирования обученной визуальной модели путем генерации контрфактуальных тестовых изображений, управляемых языковыми инструкциями (LANCE). Наш метод использует последние достижения в области крупномасштабного языкового моделирования и редактирования изображений на основе текста для расширения независимо и одинаково распределенного (IID) тестового набора разнообразными, реалистичными и сложными тестовыми изображениями без изменения весов модели. Мы оцениваем производительность различных предобученных моделей на наших сгенерированных данных и наблюдаем значительное и устойчивое снижение их показателей. Дополнительно мы анализируем чувствительность моделей к различным типам изменений и демонстрируем применимость нашего подхода для выявления ранее неизвестных предубеждений на уровне классов в модели ImageNet.
English
We propose an automated algorithm to stress-test a trained visual model by
generating language-guided counterfactual test images (LANCE). Our method
leverages recent progress in large language modeling and text-based image
editing to augment an IID test set with a suite of diverse, realistic, and
challenging test images without altering model weights. We benchmark the
performance of a diverse set of pretrained models on our generated data and
observe significant and consistent performance drops. We further analyze model
sensitivity across different types of edits, and demonstrate its applicability
at surfacing previously unknown class-level model biases in ImageNet.