MLLM-como-Juez para la Seguridad de Imágenes sin Etiquetado Humano
MLLM-as-a-Judge for Image Safety without Human Labeling
December 31, 2024
Autores: Zhenting Wang, Shuming Hu, Shiyu Zhao, Xiaowen Lin, Felix Juefei-Xu, Zhuowei Li, Ligong Han, Harihar Subramanyam, Li Chen, Jianfa Chen, Nan Jiang, Lingjuan Lyu, Shiqing Ma, Dimitris N. Metaxas, Ankit Jain
cs.AI
Resumen
La seguridad del contenido de imágenes se ha convertido en un desafío significativo con el aumento de los medios visuales en plataformas en línea. Mientras tanto, en la era del contenido generado por IA (CGIA), muchos modelos de generación de imágenes son capaces de producir contenido dañino, como imágenes que contienen material sexual o violento. Por lo tanto, resulta crucial identificar dichas imágenes inseguras basándose en reglas de seguridad establecidas. Los Modelos de Lenguaje Multimodal de Gran Tamaño (MLLMs) pre-entrenados ofrecen potencial en este sentido, dada su fuerte capacidad de reconocimiento de patrones. Los enfoques existentes suelen ajustar finamente los MLLMs con conjuntos de datos etiquetados por humanos, lo cual, sin embargo, conlleva una serie de inconvenientes. En primer lugar, depender de anotadores humanos para etiquetar datos siguiendo pautas intrincadas y detalladas es tanto costoso como intensivo en mano de obra. Además, los usuarios de sistemas de juicio de seguridad pueden necesitar actualizar con frecuencia las reglas de seguridad, lo que dificulta más el ajuste fino en base a anotaciones basadas en humanos. Esto plantea la pregunta de investigación: ¿Podemos detectar imágenes inseguras consultando MLLMs en un entorno de cero disparos utilizando una constitución de seguridad predefinida (un conjunto de reglas de seguridad)? Nuestra investigación mostró que simplemente consultar MLLMs pre-entrenados no produce resultados satisfactorios. Esta falta de efectividad se debe a factores como la subjetividad de las reglas de seguridad, la complejidad de constituciones extensas y los sesgos inherentes en los modelos. Para abordar estos desafíos, proponemos un método basado en MLLM que incluye la objetivación de reglas de seguridad, evaluando la relevancia entre reglas e imágenes, tomando decisiones rápidas basadas en probabilidades de tokens desbiasadas con cadenas de precondiciones lógicamente completas pero simplificadas para reglas de seguridad, y realizando un razonamiento más profundo con procesos de cadena de pensamiento en cascada si es necesario. Los resultados experimentales demuestran que nuestro método es altamente efectivo para tareas de juicio de seguridad de imágenes de cero disparos.
English
Image content safety has become a significant challenge with the rise of
visual media on online platforms. Meanwhile, in the age of AI-generated content
(AIGC), many image generation models are capable of producing harmful content,
such as images containing sexual or violent material. Thus, it becomes crucial
to identify such unsafe images based on established safety rules. Pre-trained
Multimodal Large Language Models (MLLMs) offer potential in this regard, given
their strong pattern recognition abilities. Existing approaches typically
fine-tune MLLMs with human-labeled datasets, which however brings a series of
drawbacks. First, relying on human annotators to label data following intricate
and detailed guidelines is both expensive and labor-intensive. Furthermore,
users of safety judgment systems may need to frequently update safety rules,
making fine-tuning on human-based annotation more challenging. This raises the
research question: Can we detect unsafe images by querying MLLMs in a zero-shot
setting using a predefined safety constitution (a set of safety rules)? Our
research showed that simply querying pre-trained MLLMs does not yield
satisfactory results. This lack of effectiveness stems from factors such as the
subjectivity of safety rules, the complexity of lengthy constitutions, and the
inherent biases in the models. To address these challenges, we propose a
MLLM-based method includes objectifying safety rules, assessing the relevance
between rules and images, making quick judgments based on debiased token
probabilities with logically complete yet simplified precondition chains for
safety rules, and conducting more in-depth reasoning with cascaded
chain-of-thought processes if necessary. Experiment results demonstrate that
our method is highly effective for zero-shot image safety judgment tasks.Summary
AI-Generated Summary