LANCE: Evaluación de resistencia de modelos visuales mediante la generación de imágenes contrafactuales guiadas por lenguaje
LANCE: Stress-testing Visual Models by Generating Language-guided Counterfactual Images
May 30, 2023
Autores: Viraj Prabhu, Sriram Yenamandra, Prithvijit Chattopadhyay, Judy Hoffman
cs.AI
Resumen
Proponemos un algoritmo automatizado para realizar pruebas de estrés a un modelo visual entrenado mediante la generación de imágenes de prueba contrafactuales guiadas por lenguaje (LANCE). Nuestro método aprovecha los avances recientes en el modelado de lenguaje a gran escala y la edición de imágenes basada en texto para ampliar un conjunto de pruebas IID con una serie de imágenes de prueba diversas, realistas y desafiantes sin alterar los pesos del modelo. Evaluamos el rendimiento de un conjunto diverso de modelos preentrenados en nuestros datos generados y observamos caídas significativas y consistentes en el rendimiento. Además, analizamos la sensibilidad del modelo frente a diferentes tipos de ediciones y demostramos su aplicabilidad para revelar sesgos a nivel de clase previamente desconocidos en ImageNet.
English
We propose an automated algorithm to stress-test a trained visual model by
generating language-guided counterfactual test images (LANCE). Our method
leverages recent progress in large language modeling and text-based image
editing to augment an IID test set with a suite of diverse, realistic, and
challenging test images without altering model weights. We benchmark the
performance of a diverse set of pretrained models on our generated data and
observe significant and consistent performance drops. We further analyze model
sensitivity across different types of edits, and demonstrate its applicability
at surfacing previously unknown class-level model biases in ImageNet.