LANCE: Testando a Robustez de Modelos Visuais por meio da Geração de Imagens Contrafactuais Orientadas por Linguagem

Resumo

Propomos um algoritmo automatizado para testar a robustez de um modelo visual treinado por meio da geração de imagens contrafactuais guiadas por linguagem (LANCE). Nosso método aproveita os avanços recentes em modelagem de linguagem em grande escala e edição de imagens baseada em texto para ampliar um conjunto de testes IID com uma variedade de imagens de teste diversificadas, realistas e desafiadoras, sem alterar os pesos do modelo. Avaliamos o desempenho de um conjunto diversificado de modelos pré-treinados em nossos dados gerados e observamos quedas significativas e consistentes no desempenho. Além disso, analisamos a sensibilidade do modelo em diferentes tipos de edições e demonstramos sua aplicabilidade na identificação de vieses de nível de classe previamente desconhecidos no ImageNet.

English

We propose an automated algorithm to stress-test a trained visual model by generating language-guided counterfactual test images (LANCE). Our method leverages recent progress in large language modeling and text-based image editing to augment an IID test set with a suite of diverse, realistic, and challenging test images without altering model weights. We benchmark the performance of a diverse set of pretrained models on our generated data and observe significant and consistent performance drops. We further analyze model sensitivity across different types of edits, and demonstrate its applicability at surfacing previously unknown class-level model biases in ImageNet.

LANCE: Testando a Robustez de Modelos Visuais por meio da Geração de Imagens Contrafactuais Orientadas por Linguagem

LANCE: Stress-testing Visual Models by Generating Language-guided Counterfactual Images

Resumo

Support