MLLM-como-Juez para la Seguridad de Imágenes sin Etiquetado Humano

Resumen

La seguridad del contenido de imágenes se ha convertido en un desafío significativo con el aumento de los medios visuales en plataformas en línea. Mientras tanto, en la era del contenido generado por IA (CGIA), muchos modelos de generación de imágenes son capaces de producir contenido dañino, como imágenes que contienen material sexual o violento. Por lo tanto, resulta crucial identificar dichas imágenes inseguras basándose en reglas de seguridad establecidas. Los Modelos de Lenguaje Multimodal de Gran Tamaño (MLLMs) pre-entrenados ofrecen potencial en este sentido, dada su fuerte capacidad de reconocimiento de patrones. Los enfoques existentes suelen ajustar finamente los MLLMs con conjuntos de datos etiquetados por humanos, lo cual, sin embargo, conlleva una serie de inconvenientes. En primer lugar, depender de anotadores humanos para etiquetar datos siguiendo pautas intrincadas y detalladas es tanto costoso como intensivo en mano de obra. Además, los usuarios de sistemas de juicio de seguridad pueden necesitar actualizar con frecuencia las reglas de seguridad, lo que dificulta más el ajuste fino en base a anotaciones basadas en humanos. Esto plantea la pregunta de investigación: ¿Podemos detectar imágenes inseguras consultando MLLMs en un entorno de cero disparos utilizando una constitución de seguridad predefinida (un conjunto de reglas de seguridad)? Nuestra investigación mostró que simplemente consultar MLLMs pre-entrenados no produce resultados satisfactorios. Esta falta de efectividad se debe a factores como la subjetividad de las reglas de seguridad, la complejidad de constituciones extensas y los sesgos inherentes en los modelos. Para abordar estos desafíos, proponemos un método basado en MLLM que incluye la objetivación de reglas de seguridad, evaluando la relevancia entre reglas e imágenes, tomando decisiones rápidas basadas en probabilidades de tokens desbiasadas con cadenas de precondiciones lógicamente completas pero simplificadas para reglas de seguridad, y realizando un razonamiento más profundo con procesos de cadena de pensamiento en cascada si es necesario. Los resultados experimentales demuestran que nuestro método es altamente efectivo para tareas de juicio de seguridad de imágenes de cero disparos.

English

Image content safety has become a significant challenge with the rise of visual media on online platforms. Meanwhile, in the age of AI-generated content (AIGC), many image generation models are capable of producing harmful content, such as images containing sexual or violent material. Thus, it becomes crucial to identify such unsafe images based on established safety rules. Pre-trained Multimodal Large Language Models (MLLMs) offer potential in this regard, given their strong pattern recognition abilities. Existing approaches typically fine-tune MLLMs with human-labeled datasets, which however brings a series of drawbacks. First, relying on human annotators to label data following intricate and detailed guidelines is both expensive and labor-intensive. Furthermore, users of safety judgment systems may need to frequently update safety rules, making fine-tuning on human-based annotation more challenging. This raises the research question: Can we detect unsafe images by querying MLLMs in a zero-shot setting using a predefined safety constitution (a set of safety rules)? Our research showed that simply querying pre-trained MLLMs does not yield satisfactory results. This lack of effectiveness stems from factors such as the subjectivity of safety rules, the complexity of lengthy constitutions, and the inherent biases in the models. To address these challenges, we propose a MLLM-based method includes objectifying safety rules, assessing the relevance between rules and images, making quick judgments based on debiased token probabilities with logically complete yet simplified precondition chains for safety rules, and conducting more in-depth reasoning with cascaded chain-of-thought processes if necessary. Experiment results demonstrate that our method is highly effective for zero-shot image safety judgment tasks.

MLLM-como-Juez para la Seguridad de Imágenes sin Etiquetado Humano

MLLM-as-a-Judge for Image Safety without Human Labeling

Resumen

Support