LANCE : Mise à l'épreuve des modèles visuels par la génération d'images contrefactuelles guidées par le langage

papers.abstract

Nous proposons un algorithme automatisé pour tester la robustesse d'un modèle visuel entraîné en générant des images contrefactuelles guidées par le langage (LANCE). Notre méthode exploite les récents progrès en modélisation du langage à grande échelle et en édition d'images basée sur le texte pour enrichir un ensemble de tests IID avec une série d'images de test diversifiées, réalistes et difficiles, sans modifier les poids du modèle. Nous évaluons les performances d'un ensemble varié de modèles pré-entraînés sur nos données générées et observons des baisses de performances significatives et cohérentes. Nous analysons en outre la sensibilité des modèles à différents types de modifications, et démontrons son applicabilité pour révéler des biais au niveau des classes précédemment inconnus dans ImageNet.

English

We propose an automated algorithm to stress-test a trained visual model by generating language-guided counterfactual test images (LANCE). Our method leverages recent progress in large language modeling and text-based image editing to augment an IID test set with a suite of diverse, realistic, and challenging test images without altering model weights. We benchmark the performance of a diverse set of pretrained models on our generated data and observe significant and consistent performance drops. We further analyze model sensitivity across different types of edits, and demonstrate its applicability at surfacing previously unknown class-level model biases in ImageNet.

LANCE : Mise à l'épreuve des modèles visuels par la génération d'images contrefactuelles guidées par le langage

LANCE: Stress-testing Visual Models by Generating Language-guided Counterfactual Images

papers.abstract

Support