MLLM-als-rechter voor beeldveiligheid zonder menselijke labeling
MLLM-as-a-Judge for Image Safety without Human Labeling
December 31, 2024
Auteurs: Zhenting Wang, Shuming Hu, Shiyu Zhao, Xiaowen Lin, Felix Juefei-Xu, Zhuowei Li, Ligong Han, Harihar Subramanyam, Li Chen, Jianfa Chen, Nan Jiang, Lingjuan Lyu, Shiqing Ma, Dimitris N. Metaxas, Ankit Jain
cs.AI
Samenvatting
Het waarborgen van de veiligheid van beeldinhoud is een aanzienlijke uitdaging geworden met de opkomst van visuele media op online platforms. Ondertussen, in het tijdperk van door AI gegenereerde inhoud (AIGC), zijn veel beeldgeneratiemodellen in staat om schadelijke inhoud te produceren, zoals afbeeldingen met seksueel of gewelddadig materiaal. Daarom is het cruciaal om dergelijke onveilige afbeeldingen te identificeren op basis van vastgestelde veiligheidsregels. Vooraf getrainde Multimodale Grote Taalmodellen (MLLM's) bieden potentieel op dit gebied, gezien hun sterke patroonherkenningsvermogen. Bestaande benaderingen passen MLLM's doorgaans aan met door mensen gelabelde datasets, wat echter een reeks nadelen met zich meebrengt. Ten eerste is het vertrouwen op menselijke annotatoren om gegevens te labelen volgens ingewikkelde en gedetailleerde richtlijnen zowel duur als arbeidsintensief. Bovendien moeten gebruikers van veiligheidsoordeelsystemen mogelijk veiligheidsregels vaak bijwerken, waardoor fijnafstemming op op annotatie gebaseerde menselijke input uitdagender wordt. Dit roept de onderzoeksvraag op: Kunnen we onveilige afbeeldingen detecteren door MLLM's te bevragen in een zero-shot setting met behulp van een vooraf gedefinieerde veiligheidsgrondwet (een set veiligheidsregels)? Ons onderzoek toonde aan dat eenvoudigweg MLLM's bevragen geen bevredigende resultaten oplevert. Dit gebrek aan effectiviteit komt voort uit factoren zoals de subjectiviteit van veiligheidsregels, de complexiteit van uitgebreide grondwetten en de inherente vooroordelen in de modellen. Om deze uitdagingen aan te pakken, stellen we een op MLLM gebaseerde methode voor die het objectiveren van veiligheidsregels omvat, het beoordelen van de relevantie tussen regels en afbeeldingen, het maken van snelle oordelen op basis van gedebiasde tokenkansen met logisch volledige maar vereenvoudigde voorwaardeketens voor veiligheidsregels, en het uitvoeren van meer diepgaande redeneringen met gekoppelde gedachteprocessen indien nodig. Experimentele resultaten tonen aan dat onze methode zeer effectief is voor zero-shot taken voor het beoordelen van de veiligheid van afbeeldingen.
English
Image content safety has become a significant challenge with the rise of
visual media on online platforms. Meanwhile, in the age of AI-generated content
(AIGC), many image generation models are capable of producing harmful content,
such as images containing sexual or violent material. Thus, it becomes crucial
to identify such unsafe images based on established safety rules. Pre-trained
Multimodal Large Language Models (MLLMs) offer potential in this regard, given
their strong pattern recognition abilities. Existing approaches typically
fine-tune MLLMs with human-labeled datasets, which however brings a series of
drawbacks. First, relying on human annotators to label data following intricate
and detailed guidelines is both expensive and labor-intensive. Furthermore,
users of safety judgment systems may need to frequently update safety rules,
making fine-tuning on human-based annotation more challenging. This raises the
research question: Can we detect unsafe images by querying MLLMs in a zero-shot
setting using a predefined safety constitution (a set of safety rules)? Our
research showed that simply querying pre-trained MLLMs does not yield
satisfactory results. This lack of effectiveness stems from factors such as the
subjectivity of safety rules, the complexity of lengthy constitutions, and the
inherent biases in the models. To address these challenges, we propose a
MLLM-based method includes objectifying safety rules, assessing the relevance
between rules and images, making quick judgments based on debiased token
probabilities with logically complete yet simplified precondition chains for
safety rules, and conducting more in-depth reasoning with cascaded
chain-of-thought processes if necessary. Experiment results demonstrate that
our method is highly effective for zero-shot image safety judgment tasks.Summary
AI-Generated Summary