MLLM en tant que juge pour la sécurité des images sans étiquetage humain
MLLM-as-a-Judge for Image Safety without Human Labeling
December 31, 2024
Auteurs: Zhenting Wang, Shuming Hu, Shiyu Zhao, Xiaowen Lin, Felix Juefei-Xu, Zhuowei Li, Ligong Han, Harihar Subramanyam, Li Chen, Jianfa Chen, Nan Jiang, Lingjuan Lyu, Shiqing Ma, Dimitris N. Metaxas, Ankit Jain
cs.AI
Résumé
La sécurité du contenu des images est devenue un défi majeur avec la montée en puissance des médias visuels sur les plateformes en ligne. Pendant ce temps, à l'ère du contenu généré par l'IA (CGIA), de nombreux modèles de génération d'images sont capables de produire du contenu nuisible, tel que des images contenant du matériel sexuel ou violent. Il devient donc crucial d'identifier de telles images non sécurisées en se basant sur des règles de sécurité établies. Les Modèles de Langage Multimodaux de Grande Taille (MLLMs) pré-entraînés offrent un potentiel en ce sens, étant donné leurs fortes capacités de reconnaissance de motifs. Les approches existantes consistent généralement à affiner les MLLMs avec des ensembles de données annotés par des humains, ce qui entraîne cependant une série d'inconvénients. Tout d'abord, s'appuyer sur des annotateurs humains pour étiqueter des données selon des directives complexes et détaillées est à la fois coûteux et intensif en main-d'œuvre. De plus, les utilisateurs des systèmes de jugement de sécurité peuvent avoir besoin de mettre à jour fréquemment les règles de sécurité, rendant l'affinage basé sur l'annotation humaine plus difficile. Cela soulève la question de recherche suivante : Pouvons-nous détecter des images non sécurisées en interrogeant les MLLMs dans un cadre de zéro-shot en utilisant une constitution de sécurité prédéfinie (un ensemble de règles de sécurité) ? Notre recherche a montré que simplement interroger des MLLMs pré-entraînés ne donne pas de résultats satisfaisants. Ce manque d'efficacité découle de facteurs tels que la subjectivité des règles de sécurité, la complexité des constitutions longues et les biais inhérents dans les modèles. Pour relever ces défis, nous proposons une méthode basée sur les MLLMs qui inclut l'objectivation des règles de sécurité, l'évaluation de la pertinence entre les règles et les images, la prise de jugements rapides basée sur les probabilités de jetons débiaisées avec des chaînes de préconditions logiquement complètes mais simplifiées pour les règles de sécurité, et la réalisation de raisonnements plus approfondis avec des processus de pensée en cascade si nécessaire. Les résultats des expériences démontrent que notre méthode est très efficace pour les tâches de jugement de sécurité des images en zéro-shot.
English
Image content safety has become a significant challenge with the rise of
visual media on online platforms. Meanwhile, in the age of AI-generated content
(AIGC), many image generation models are capable of producing harmful content,
such as images containing sexual or violent material. Thus, it becomes crucial
to identify such unsafe images based on established safety rules. Pre-trained
Multimodal Large Language Models (MLLMs) offer potential in this regard, given
their strong pattern recognition abilities. Existing approaches typically
fine-tune MLLMs with human-labeled datasets, which however brings a series of
drawbacks. First, relying on human annotators to label data following intricate
and detailed guidelines is both expensive and labor-intensive. Furthermore,
users of safety judgment systems may need to frequently update safety rules,
making fine-tuning on human-based annotation more challenging. This raises the
research question: Can we detect unsafe images by querying MLLMs in a zero-shot
setting using a predefined safety constitution (a set of safety rules)? Our
research showed that simply querying pre-trained MLLMs does not yield
satisfactory results. This lack of effectiveness stems from factors such as the
subjectivity of safety rules, the complexity of lengthy constitutions, and the
inherent biases in the models. To address these challenges, we propose a
MLLM-based method includes objectifying safety rules, assessing the relevance
between rules and images, making quick judgments based on debiased token
probabilities with logically complete yet simplified precondition chains for
safety rules, and conducting more in-depth reasoning with cascaded
chain-of-thought processes if necessary. Experiment results demonstrate that
our method is highly effective for zero-shot image safety judgment tasks.Summary
AI-Generated Summary